IA : Encore un nouveau LLM de DeepSeek !

Janus, Janus-Pro, JanusFlow, multimodalité, IA générative, text-to-image, rectified flow, vision-langage, transformer, open source, actu IA, actualité IA

DeepSeek sort un nouveau LLM multimodal. La série Janus de DeepSeek se positionne comme une approche innovante en unifiant la compréhension visuelle et la génération d’images au sein d’une même architecture. Dernièrement, les nouvelles versions — Janus-Pro et JanusFlow — ont franchi un pas supplémentaire, avec des performances améliorées et de nouvelles possibilités pour les chercheurs et les entreprises. Découvrez dans cet article les points clés de ces modèles, leurs fonctionnalités phares et leurs cas d’usage.


1. Janus et Janus-Pro : une architecture unifiée et découplée

1.1. De Janus à Janus-Pro : les grandes évolutions

  • Janus-Pro est une version avancée de Janus qui se distingue par :
    1. Une stratégie d’entraînement optimisée
    2. Des données de formation plus étendues
    3. Une échelle de modèle plus large
    Grâce à ces améliorations, Janus-Pro gagne à la fois en compréhension multimodale (analyse d’images et de textes) et en suivi d’instructions pour la génération d’images, tout en stabilisant davantage le processus de génération visuelle.
  • Janus, pour sa part, innove en découpant la partie “encodage visuel” en plusieurs chemins de traitement. Bien que l’architecture centrale reste unique, cette séparation atténue les conflits entre la fonction d’encodage et celle de génération, ce qui accroît la flexibilité du modèle.

1.2. Principales caractéristiques

  • Traitement unifié : Janus et Janus-Pro utilisent un transformeur unique capable de gérer aussi bien des tâches d’analyse d’images que de génération.
  • Découplage visuel : La séparation des rôles (compréhension vs. génération) évite la surcharge d’un seul et même encodeur pour des tâches aux objectifs différents.
  • Flexibilité : L’approche de Janus s’intègre facilement dans des pipelines existants, que l’on traite du texte, des images ou les deux.

2. JanusFlow : l’approche par “Rectified Flow”

2.1. Qu’est-ce que JanusFlow ?

Avec JanusFlow, la série Janus introduit la méthode de rectified flow dans l’architecture d’un modèle de langage. L’idée consiste à combiner la puissance des transformeurs auto-régressifs (comme ceux qui gèrent le langage) avec un mécanisme avancé de modélisation générative, sans nécessiter d’architecture complexe supplémentaire.

2.2. Avancées principales

  • Simplicité d’intégration : JanusFlow s’entraîne directement dans l’écosystème “large language model” sans réécrire les blocs fondamentaux.
  • Performance unifiée : À la fois dans la compréhension et la génération (texte, images) — JanusFlow se montre à la hauteur de modèles spécialisés, tout en dépassant les approches unifiées existantes sur des benchmarks exigeants.

3. Performances et téléchargements

3.1. Versions disponibles

La famille Janus comprend plusieurs checkpoints, tous accessibles au public sous certaines conditions de licence . Voici quelques versions phares :

3.2. Objectif de publication open source

Cette mise à disposition s’inscrit dans une volonté de soutenir la recherche, qu’elle soit académique ou industrielle. La licence spécifie les droits d’utilisation commerciale : la liberté d’usage est autorisée, sous réserve de respecter les termes précisés.


4. Cas d’usage concrets

  1. Analyse d’images et de textes : Les capacités de compréhension de Janus, Janus-Pro et JanusFlow les rendent adaptés à des tâches comme la description d’images, la classification multimodale ou l’extraction d’informations.
  2. Génération d’images guidée par instruction : Grâce à leur dimension “text-to-image”, ils produisent des visuels à partir d’un prompt textuel, avec une amélioration notable de la qualité et de la stabilité dans la version Janus-Pro.
  3. R&D et prototypage : Dans un environnement de recherche, ces modèles sont particulièrement flexibles pour concevoir des systèmes unifiés autour du langage et de la vision (ex. assistants visuels, applications immersives).

5. Vers l’avenir des modèles multimodaux

Les progrès rapides de la série Janus illustrent une tendance : la convergence des capacités de compréhension et de génération au sein de modèles unifiés. Qu’il s’agisse d’analyses précises ou de créations artistiques, ces technologies élargissent le champ des possibles, en offrant aux chercheurs et aux développeurs :

  • Des pipelines plus simples : Moins de modèles spécialisés distincts à maintenir.
  • Une grande modularité : Notamment pour le fine-tuning ou l’adaptation à des domaines spécifiques.
  • Une dynamique d’amélioration continue : Chaque nouvelle version (Janus-Pro, JanusFlow) apporte des correctifs et fonctionnalités supplémentaires (p. ex. la réduction des bugs de tokenizer_config).

L’équipe de développement indique que la série Janus va continuer à évoluer pour couvrir d’autres usages multimodaux, avec un accent mis sur la facilité d’implémentation et l’efficacité.


En Bref

Avec Janus, Janus-Pro et JanusFlow, le paysage des modèles multimodaux unifiés franchit une nouvelle étape. En s’appuyant sur un découplage judicieux de l’encodage visuel et sur des techniques comme le rectified flow, ces approches ouvrent la voie à une fusion harmonieuse entre compréhension et génération pour textes et images.

Source :
https://github.com/deepseek-ai/Janus?tab=readme-ov-file#5-citation

Lire Aussi :
IA : La France revient en force avec le LLM Mistral Small 3
OpenAI revient en force avec le modèle o3-mini