En juin 2025, DeepMind a présenté Gemini Robotics On‑Device, un modèle qui associe vision, langage et action pour permettre à des robots physiques d’accomplir différentes tâches sans dépendre du cloud. Ce modèle est optimisé pour fonctionner localement avec une faible latence afin que des bras robotisés puissent réagir en temps réel.
L’entreprise souligne que le système peut effectuer des tâches variées comme dézipper un sac, trier des objets, plier des vêtements ou verser de l’eau dans un récipient. Surtout, il ne se limite pas à une tâche : il généralise et peut être adapté avec seulement 50 à 100 démonstrations. DeepMind met également à disposition un kit de développement (SDK) pour que les chercheurs et les entreprises puissent déployer leur propre robotique On‑Device.
Cette approche marque un pas vers des robots domestiques ou industriels capables d’apprendre comme des humains. Plutôt que de programmer spécifiquement chaque geste, l’algorithme apprend à partir de quelques exemples et s’appuie sur sa connaissance du monde pour improviser. DeepMind espère que la communauté tirera parti de cette plateforme ouverte pour accélérer la robotique générale.