La super-résolution (SR) consiste à transformer une image basse résolution (LR) en une image haute résolution (HR). Malgré les progrès réalisés par les approches basées sur des GANs ou des réseaux de neurones dédiés, de nombreux défis persistent : les dégradations sont souvent complexes (bruit, flou, artefacts de compression), et la fidélité des détails joue un rôle crucial pour un rendu visuellement réaliste.
Dans ce contexte, des chercheurs de la Nanyang Technological University (NTU) ont développé InvSR, une nouvelle méthode de super-résolution. Fondée sur l’inversion de diffusion (Diffusion Inversion), elle exploite à la fois la puissance des modèles de diffusion pré-entraînés et une stratégie originale appelée Partial Noise Prediction (PnP). Le tout est régi par une architecture de prédiction de bruit qui, une fois entraînée, permet de reconstruire efficacement des images haute résolution, et cela sans altérer le cœur du modèle de diffusion.
1. Pourquoi l’inversion de diffusion ?
Les modèles de diffusion (tels que Stable Diffusion) sont reconnus pour leur capacité à générer des images détaillées à partir d’un bruit aléatoire. Le principe d’inversion de diffusion (Diffusion Inversion) vise, cette fois, à partir d’une image observée — dans notre cas, une image basse résolution — pour remonter la chaîne de génération. Concrètement :
- On injecte un bruit spécifiquement calculé dans l’image LR.
- On laisse le modèle de diffusion opérer « en sens inverse », comme s’il reconstruisait l’image pas à pas en haute résolution.
Le défi : trouver le bruit optimal pour lancer la diffusion inverse au bon moment (intermédiaire) afin de préserver les détails et d’éviter les dégradations inutiles.
2. La stratégie “Partial Noise Prediction” (PnP)
InvSR s’appuie sur une idée clé : plutôt que de prédire le bruit pour chaque étape du processus de diffusion (généralement très long), on choisit un instant intermédiaire jugé « suffisamment proche » de l’image finale de haute qualité (typiquement autour de 250e itération ou moins). À ce moment :
- On estime la “carte de bruit” via un réseau de prédiction spécialisé.
- On fusionne cette carte avec l’image LR.
- On laisse ensuite la diffusion se dérouler (de 1 à 5 étapes, voire plus si besoin).
Ce procédé permet de réduire drastiquement la complexité et le temps de calcul tout en garantissant que l’image générée reste fidèle aux informations contenues dans la LR.

3. Un nombre d’étapes de restauration modulable (1 à 5… voire plus)
Contrairement aux approches classiques qui figent le nombre d’itérations du modèle de diffusion, InvSR vous laisse choisir le nombre d’étapes :
- 1 étape : parfait pour des images principalement affectées par le bruit. L’algorithme ne rajoute pas de transformations inutiles et évite de renforcer le bruit.
- 3 à 5 étapes : idéal pour des images floues ou très dégradées : on récupère progressivement des détails fins.
Cette flexibilité s’avère cruciale en pratique, puisque le type de dégradation peut varier (bruit numérique, artefacts de compression, flou de mouvement, etc.). L’utilisateur ou le système peut donc s’adapter au cas par cas.
4. Résultats : Efficacité et Qualité d’Image
Les auteurs ont évalué InvSR sur différents jeux de données, notamment :
- ImageNet-Test (3 000 images) : pour un diagnostic sur des données synthétiques dégradées.
- RealSR (100 photos réelles) : prises avec différents appareils photo.
- RealSet80 (80 images dégradées réelles) : cas concrets du quotidien.
Principaux constats :
- Qualité compétitive, voire supérieure : en mode « 1 étape », InvSR surpasse ou égale les meilleures approches « one-step » (OSEDiff, SinSR, etc.) sur des métriques comme LPIPS, NIQE, CLIPIQA ou MUSIQ.
- Souplesse d’utilisation : selon la dégradation (flou important ou bruit fort), augmenter ou réduire le nombre d’étapes améliore le rendu.
- Contrainte mémoire modérée : InvSR n’ajoute qu’une trentaine de millions de paramètres (environ 34 M), plus léger que de nombreuses techniques multi-étapes.
- Rapidité accrue : la PnP réduit le coût inférentiel. Même si InvSR demeure plus lent que certains GANs classiques, elle se montre nettement plus rapide que d’autres méthodes de diffusion multi-étapes.
5. Points forts et perspectives
- Fidélité et réalisme : bonne préservation des détails avec un bruit contrôlé.
- Contrôle utilisateur : passage aisé d’une étape de diffusion à plusieurs, selon la dégradation constatée.
- Code source disponible : l’implémentation est publiée en open source sur GitHub (Licence CC BY-NC-SA 4.0).
Limites et futurs travaux
- Bien que plus rapide que d’autres méthodes de diffusion, InvSR reste plus lent que certains GANs. Des pistes d’accélération (quantification de modèles, distillation) sont envisagées.
- L’approche pourrait être étendue à d’autres tâches de restauration (défloutage, débruitage sans SR, etc.) avec des ajustements mineurs.
En Bref
InvSR marque une avancée dans la super-résolution d’images en s’appuyant sur l’inversion de diffusion et une stratégie de Partial Noise Prediction ingénieuse. Le résultat ? Une méthode plus flexible, capable de s’adapter à différents niveaux de dégradation et de fournir de meilleures performances, même avec un faible nombre d’étapes de calcul.
Cette approche illustre l’importance d’exploiter un bruit calculé plutôt qu’aléatoire pour guider la diffusion, tout en épargnant de longs temps de calcul. InvSR se pose ainsi comme une référence prometteuse pour la SR, avec des applications dans la photographie, la surveillance vidéo, la restauration d’archives, etc.
Pour en savoir plus et accéder au code :
GitHub InvSR
Source :
https://arxiv.org/html/2412.09013v1
Lire Aussi :
L’intelligence artificielle Fait semblant d’être d’accord avec les chercheurs
OpenAI o3 : un saut décisif sur le benchmark ARC-AGI