Les réseaux de neurones et les GAN ont permis un grand progrès : les images upscalées sont devenues beaucoup plus naturelles et détaillées. Pourtant, ils avaient encore une limite : ils essayaient de deviner directement l’image finale à partir de l’image basse résolution.
À partir de 2021-2022, une nouvelle famille de modèles, appelée modèles de diffusion (ceux qui sont derrière Stable Diffusion et les outils d’upscaling les plus puissants actuels), a changé la donne. Ces modèles ne devinent pas directement l’image. Ils apprennent à retirer du bruit petit à petit, ce qui leur permet d’inventer des détails cohérents et réalistes là où il n’y avait plus d’information.
1. Le principe des modèles de diffusion expliqué simplement
L’idée est assez intuitive :
- On prend une très belle image haute résolution.
- On ajoute progressivement du bruit (comme de la neige sur un écran de télévision) jusqu’à ce que l’image devienne complètement du bruit aléatoire. C’est le processus forward.
- Ensuite, on entraîne un réseau de neurones à faire l’opération inverse : partir d’une image très bruitée et réussir à retrouver progressivement une image réaliste et cohérente. C’est le processus reverse.
Le réseau n’apprend donc pas à créer une image d’un coup. Il apprend à nettoyer le bruit étape par étape.
2. Comment cela s’applique à l’upscaling
Quand on veut agrandir une image basse résolution, on procède de la façon suivante :
- On donne au modèle l’image basse résolution d’origine.
- On ajoute un peu de bruit à cette image.
- On demande au modèle de retirer ce bruit progressivement, tout en respectant le contenu de l’image de départ.
Le modèle utilise tout ce qu’il a appris sur des millions d’images pour remplir les détails manquants de façon très cohérente (textures de peau, cheveux, tissu, herbe, etc.).
3. Pourquoi ces modèles sont particulièrement puissants
Contrairement aux méthodes précédentes qui redistribuaient simplement l’information existante, les modèles de diffusion créent vraiment de l’information nouvelle.
Ils ne se contentent pas de lisser ou d’inventer n’importe quoi : ils s’appuient sur une compréhension très profonde de ce à quoi ressemble le monde réel pour inventer des détails plausibles et naturels.
C’est pour cela que les résultats sont souvent impressionnants, même quand l’image de départ est très dégradée.
En résumé
Les modèles de diffusion représentent un saut important : au lieu de simplement redistribuer l’information présente dans l’image basse résolution, ils apprennent à inventer de l’information manquante de façon cohérente et réaliste.
Ils ne remplacent pas complètement les méthodes précédentes, mais ils offrent aujourd’hui les résultats les plus naturels en upscaling.
Dans le prochain article, on va creuser un peu plus la théorie : comment la théorie de l’information explique que ces modèles arrivent réellement à créer de l’information.