R1 : Un Nouveau LLM Open Source qui Surpasse OpenAI o1 sur Certains Benchmarks

DeepSeek-R1, DeepSeek-R1-Zero, modèles de raisonnement IA, apprentissage par renforcement IA, distillation modèles IA, benchmarks IA, Qwen, Llama, open source IA, actu ia, actualité ia

L’intelligence artificielle franchit une nouvelle étape avec DeepSeek-R1-Zero et DeepSeek-R1, deux modèles de raisonnement révolutionnaires. Ces modèles de première génération, développés par DeepSeek, établissent de nouveaux standards grâce à des performances remarquables dans les domaines des mathématiques, du code et des tâches de raisonnement complexe. Voici un aperçu de ces modèles et de leurs contributions majeures à la recherche en IA.


DeepSeek-R1-Zero : Une Approche Révolutionnaire Basée sur l’Apprentissage par Renforcement

DeepSeek-R1-Zero marque une première dans le domaine de l’intelligence artificielle grâce à son entraînement exclusivement basé sur l’apprentissage par renforcement (RL), sans ajustement supervisé préalable (SFT). Cette approche unique permet au modèle de :

  • Explorer des chaînes de raisonnement (CoT) complexes.
  • Développer des capacités telles que l’auto-vérification, la réflexion et la génération de longues chaînes de raisonnement.

Points forts de DeepSeek-R1-Zero :

  • Il prouve que les capacités de raisonnement peuvent émerger uniquement via l’apprentissage par renforcement.
  • Il ouvre de nouvelles perspectives pour la recherche en IA sans dépendre de données supervisées massives.

Cependant, DeepSeek-R1-Zero présente encore des limites, notamment des répétitions interminables, des problèmes de lisibilité et un mélange des langues.


DeepSeek-R1 : Une Version Évoluée et Optimisée

Pour surmonter ces défis, DeepSeek a introduit DeepSeek-R1, une version améliorée qui intègre :

  1. Un démarrage à froid avec des données supervisées (SFT) avant l’apprentissage par renforcement.
  2. Deux phases de RL pour affiner les modèles de raisonnement et aligner les préférences humaines.
  3. Une double phase SFT pour consolider les capacités de raisonnement et non-raisonnement.

Grâce à ces optimisations, DeepSeek-R1 :

  • Offre des performances comparables à celles d’OpenAI-o1 sur divers benchmarks.
  • Établit de nouvelles références pour les modèles open source, en associant précision et efficacité.

Distillation : Des Modèles Plus Petits, Mais Performants

DeepSeek démontre que les modèles de raisonnement complexes peuvent être distillés en versions plus petites, tout en maintenant des performances exceptionnelles. En utilisant les données générées par DeepSeek-R1, plusieurs modèles denses, allant de 1,5B à 70B de paramètres, ont été ajustés.

Les modèles distillés, tels que DeepSeek-R1-Distill-Qwen-32B, surpassent les performances de modèles existants, y compris OpenAI-o1-mini, sur une variété de benchmarks, tout en restant plus compacts et plus accessibles.


Téléchargements et Accessibilité

Les modèles DeepSeek-R1-Zero et DeepSeek-R1 sont disponibles en open source sur HuggingFace. Avec une licence MIT, ils peuvent être utilisés, distillés et commercialisés librement.

ModèleParamètres TotauxParamètres ActivésLongueur de ContexteLien
DeepSeek-R1-Zero671B37B128KTélécharger
DeepSeek-R1671B37B128KTélécharger

Un Pas en Avant pour la Recherche et l’Industrie

Avec DeepSeek-R1, les chercheurs et développeurs disposent d’un outil puissant pour explorer et repousser les limites de l’intelligence artificielle. Entièrement open source, ce modèle :

  • Permet une adoption rapide dans la recherche et l’industrie.
  • Offre des bases solides pour le développement de modèles encore plus performants.

Vous pouvez l’utiliser Gratuitement ici :
https://chat.deepseek.com/

Source :
https://github.com/deepseek-ai/DeepSeek-R1

Lire Aussi :
OpenAI et Axios : Une Alliance pour Transformer l’Industrie de l’Information avec l’IA
IA : La Nouvelle Version de Transformer de Google