[4/10] - L’arrivée des réseaux de neurones : quand les CNN remplacent les priors faits-main

L’approche bayésienne classique avait un point faible important : les priors (les connaissances sur ce à quoi doit ressembler une image) étaient écrits à la main par des chercheurs. On pouvait par exemple imposer qu’une image doit être plutôt lisse ou que les contours doivent être peu nombreux. Ces règles étaient utiles, mais limitées et pas assez réalistes.

À partir de 2014-2015, les réseaux de neurones convolutionnels (CNN) vont révolutionner le domaine. Au lieu d’écrire ces règles manuellement, on va laisser le réseau les apprendre automatiquement à partir d’un très grand nombre d’exemples.

1. Pourquoi les CNN changent tout

Au lieu de définir manuellement une fonction de régularisation, on montre au réseau des centaines de milliers, voire des millions de paires d’images : une version basse résolution et la version haute résolution correspondante.

Le réseau doit, à chaque fois, essayer de reconstruire l’image haute résolution à partir de l’image basse résolution. On compare le résultat avec la vraie image et on ajuste les paramètres internes du réseau pour qu’il commette moins d’erreurs.

Après des millions d’exemples, le réseau découvre tout seul les caractéristiques statistiques réelles des images naturelles : comment les textures apparaissent, comment les contours sont nets, quelles couleurs sont cohérentes, etc.

Il n’a plus besoin qu’on lui impose des règles écrites à la main. Il a appris un prior implicite extrêmement riche et réaliste.

2. Les premières architectures

Le premier modèle marquant est le SRCNN (Super-Resolution Convolutional Neural Network), publié en 2014.

Même s’il est assez simple, il donne déjà des résultats nettement meilleurs que toutes les méthodes classiques de l’époque.

Par la suite, les chercheurs ont proposé des architectures plus avancées :

VDSR et EDSR : réseaux plus profonds avec des connexions résiduelles,

RCAN, SwinIR, HAT : ajoutent des mécanismes d’attention pour mieux se concentrer sur les zones importantes de l’image.

Chaque nouvelle version permet d’apprendre des détails de plus en plus fins et réalistes.

3. Comment le réseau apprend le prior

Pendant l’entraînement, le processus est le suivant :

Le réseau reçoit une image basse résolution.

Il produit une image haute résolution.

On compare cette prédiction avec la vraie image haute résolution à l’aide d’une fonction de perte (une mesure d’erreur).

Le réseau ajuste ses millions de paramètres pour réduire cette erreur.

Au fil des itérations, le réseau apprend implicitement les statistiques naturelles des images. Il n’a plus besoin qu’on lui dise explicitement « sois lisse » ou « mets des contours nets » : il le sait déjà.

En résumé

Les réseaux de neurones convolutionnels n’ont pas supprimé l’idée de prior. Ils ont simplement remplacé les priors écrits à la main par un prior appris automatiquement sur des quantités très importantes de données réelles.

Ce prior appris est beaucoup plus puissant, plus réaliste et beaucoup plus flexible que les règles manuelles.

Dans le prochain article, on va voir la suite logique : De SRCNN à ESRGAN — comment on est passé d’une IA qui fait « propre » à une IA qui fait vraiment « réaliste » grâce à la perte perceptuelle et aux GAN.

[4/10] - L’arrivée des réseaux de neurones : quand les CNN remplacent les priors faits-main

1. Pourquoi les CNN changent tout

2. Les premières architectures

3. Comment le réseau apprend le prior

En résumé

Teste maintenant ton propre rendu

Continuer la lecture

[1/10] - L’Upscaling de Base : Interpolation, Convolution et Pourquoi Ça Ne Suffit Jamais

[2/10] - La super-résolution : un problème “impossible” vu par la théorie de l’information

[3/10] - Les probabilités à la rescousse : l’approche bayésienne expliquée simplement