Dans l’article précédent, on a vu que les modèles de diffusion arrivent à inventer des détails réalistes là où l’information manquait. Mais d’un point de vue théorique, est-ce vraiment de la « création » d’information ? La théorie de l’information avancée permet de répondre très précisément à cette question.
1. Qu’est-ce que l’entropie ?
L’entropie est une mesure de la quantité d’information (ou d’incertitude) contenue dans une image.
Plus une image contient de détails imprévisibles et complexes, plus son entropie est élevée.
À l’inverse, une image parfaitement uniforme (toute noire par exemple) a une entropie très faible car elle ne contient presque aucune information nouvelle.
2. L’information perdue entre l’image haute et basse résolution
Quand on passe d’une image haute résolution \(X\) à une image basse résolution \(Y\), une partie de l’information disparaît irrémédiablement.
La quantité d’information qui reste inconnue (c’est-à-dire l’incertitude qui persiste sur ce que devrait être l’image haute résolution une fois qu’on a vu l’image basse résolution) s’appelle l’entropie conditionnelle. Elle s’écrit :
En termes simples :
- \(H(X)\) = quantité totale d’information contenue dans l’image haute résolution parfaite.
- \(I(X; Y)\) = quantité d’information que l’image basse résolution nous donne réellement sur l’image haute résolution.
- \(H(X \mid Y)\) = ce qui reste d’incertitude = l’information qui a été perdue et qu’on ne peut plus récupérer directement.
Dans la pratique, l’image basse résolution nous donne très peu d’information sur les détails fins. Le reste est de l’incertitude pure.
3. Comment les modèles modernes comblent cette information perdue
C’est ici que les modèles de diffusion et les GAN deviennent particulièrement intéressants.
Au lieu d’essayer de récupérer l’information perdue à partir de rien, ces modèles utilisent une connaissance très profonde du monde visuel qu’ils ont apprise pendant leur entraînement.
Cette connaissance s’appelle un prior génératif.
En langage simple, c’est comme si le modèle avait développé une « idée très précise de ce à quoi ressemble le monde réel » : il sait à quoi ressemblent des cheveux, de la peau, du tissu, de l’herbe, des nuages, etc. Il a appris, sur des millions d’images, quelles combinaisons de pixels sont plausibles et lesquelles ne le sont pas.
Ce prior génératif très riche permet au modèle de remplir intelligemment les zones d’incertitude (c’est-à-dire l’entropie conditionnelle \(H(X \mid Y)\)) avec des détails cohérents et réalistes.
En résumé
La théorie de l’information montre que les modèles d’upscaling IA ne créent pas d’information à partir de rien.
Ils utilisent un prior génératif extrêmement puissant, appris sur des quantités énormes d’images réelles, pour combler de façon plausible l’information qui manquait.
Plus ce prior est précis et réaliste, plus les détails inventés paraissent naturels.
Dans le prochain article, on va voir comment les chercheurs passent du Maximum A Posteriori classique à des méthodes d’inférence bayésienne modernes beaucoup plus puissantes.