Gemini 3.5 Live Translate veut faire disparaître l’attente entre deux langues

Gemini 3.5 Live Translate veut faire disparaître l'attente entre deux langues

La traduction vocale automatique franchit une étape importante : elle ne veut plus seulement restituer correctement les mots, mais suivre une personne pendant qu’elle parle, avec sa voix, son rythme et son intonation.

Google a présenté, le 9 juin 2026, Gemini 3.5 Live Translate, un modèle audio-vers-audio capable de détecter automatiquement plus de 70 langues et de produire une traduction orale presque en temps réel. Le système ne demande pas au locuteur de terminer sa phrase avant de commencer. Il génère la voix traduite en continu et reste, selon Google, à quelques secondes derrière la parole originale.

Le modèle commence à être déployé dans l’application Google Translate sur Android et iOS. Il est également disponible en préversion publique pour les développeurs via la Gemini Live API et doit arriver dans Google Meet auprès de certains clients professionnels en préversion privée.

La promesse est ambitieuse : rendre une conversation multilingue moins mécanique, sans alternance permanente entre « parler », « attendre » et « écouter ». Mais cette fluidité repose sur un compromis complexe. Traduire trop vite augmente le risque d’erreur ; attendre trop longtemps détruit la sensation d’une conversation naturelle.

Une traduction qui commence avant la fin de la phrase

Les systèmes de traduction vocale classiques découpent souvent la conversation en tours. Une personne parle, le logiciel transcrit, traduit, puis synthétise une réponse audio. Cette chaîne peut être précise, mais elle impose des silences et rend les échanges difficiles dès que les phrases deviennent longues.

Gemini 3.5 Live Translate traite le son à mesure qu’il arrive. Le modèle doit décider quand il dispose d’assez de contexte pour commencer à parler dans la langue cible, sans attendre la fin complète de l’intervention.

Cette décision est particulièrement délicate entre des langues dont l’ordre des mots diffère. Un verbe placé tôt dans une phrase française peut apparaître beaucoup plus tard en allemand ou en japonais. Si le système commence trop vite, il risque de devoir reformuler, hésiter ou produire une construction incorrecte. S’il attend chaque information, la traduction cesse d’être simultanée.

Google explique avoir conçu le modèle pour équilibrer ces deux contraintes. La traduction doit rester synchronisée avec le locuteur tout en accumulant assez de contexte pour éviter des erreurs grossières.

Le résultat vise moins le doublage parfait que la continuité. Une personne peut suivre une visite guidée, une réunion ou un appel sans attendre une restitution complète après chaque intervention.

Le modèle conserve autant que possible la manière de parler

La nouveauté ne se limite pas à la vitesse. Google affirme que le système préserve l’intonation, le rythme et la hauteur de la voix originale.

Ces éléments transportent une partie du sens. Une phrase peut être ironique, enthousiaste, hésitante ou urgente sans que les mots changent. Une traduction parfaitement littérale mais prononcée d’une voix uniforme peut supprimer cette information.

Le modèle produit directement de l’audio traduit. Il ne se contente donc pas d’afficher une transcription puis de la faire lire par une voix générique indépendante. L’objectif est de conserver une continuité perceptible entre la personne qui parle et la voix entendue par son interlocuteur.

Cette conservation n’est pas une reproduction biométrique garantie. La documentation prévient que la voix peut dériver après une longue pause, changer de genre ou rester associée au mauvais locuteur lors d’une conversation rapide à plusieurs voix.

La nuance est importante. « Préserver la voix » dans une démonstration ne signifie pas que l’identité vocale restera stable pendant une réunion complexe. Le système cherche une ressemblance expressive, mais Google reconnaît encore des incohérences.

Plus de 70 langues et plus de 2 000 combinaisons dans Meet

Gemini 3.5 Live Translate prend en charge plus de 70 langues, notamment le français, l’anglais, l’arabe, le chinois, l’espagnol, l’allemand, le japonais, le coréen, le portugais, l’hindi et de nombreuses langues moins souvent couvertes par les fonctions vocales.

Le modèle détecte automatiquement la langue d’entrée. L’application n’a donc pas besoin d’être reconfigurée à chaque changement de locuteur, du moins lorsque la détection fonctionne correctement.

Dans Google Meet, la précédente fonction de traduction vocale était limitée à cinq langues et travaillait principalement vers ou depuis l’anglais. La nouvelle version doit permettre plus de 2 000 combinaisons linguistiques dans une même réunion.

Cette évolution réduit le rôle de l’anglais comme langue pivot visible. Deux participants peuvent théoriquement communiquer entre le portugais et le japonais sans sélectionner un passage intermédiaire par l’anglais.

Le nombre de combinaisons ne prouve toutefois pas une qualité identique pour chaque paire. Les ressources disponibles, les accents, la proximité entre les langues et la quantité de données influencent les performances. Google ne publie pas, dans son annonce, un score détaillé pour chacune des langues prises en charge.

Un modèle spécialisé, pas un assistant conversationnel

Gemini 3.5 Live Translate utilise la Gemini Live API, mais son fonctionnement diffère d’un agent vocal classique.

Un agent écoute un utilisateur, raisonne, appelle éventuellement des outils puis répond. Il attend généralement des tours de parole et peut être configuré avec des instructions. Live Translate fonctionne comme une conduite de traduction continue.

Le modèle accepte uniquement de l’audio en entrée pour cet usage. Il ne traite pas un texte à traduire, une image, une vidéo ou un document. Il ne prend pas en charge la recherche Google, l’appel de fonctions, l’exécution de code ou d’autres outils.

Cette spécialisation sert la latence. Chaque fonction supplémentaire augmente la complexité de la session et le temps nécessaire pour décider quoi faire. Google limite donc le modèle à une tâche précise : recevoir de la parole et émettre de la parole traduite, avec une transcription textuelle optionnelle.

Pour les développeurs, le modèle porte l’identifiant gemini-3.5-live-translate-preview. L’audio d’entrée doit être envoyé en PCM brut mono à 16 kHz, idéalement par segments de 100 millisecondes. Le flux de sortie est produit en PCM à 24 kHz.

Cette contrainte technique confirme que le produit est conçu pour des applications interactives. Il ne s’agit pas d’envoyer un enregistrement complet puis d’attendre un fichier final, mais de maintenir une connexion en continu.

Google Translate le rend immédiatement accessible au public

Le déploiement le plus visible concerne l’application Google Translate sur Android et iOS. La fonction Live Translate est lancée mondialement et permet d’utiliser des écouteurs pour entendre la traduction.

Sur Android, Google commence également à proposer un « mode écoute ». L’utilisateur place le téléphone contre son oreille comme lors d’un appel, et la traduction est diffusée par l’écouteur interne de l’appareil.

Cette interface répond à un problème concret. Dans un musée, un taxi ou une conversation discrète, diffuser la traduction par le haut-parleur peut gêner les personnes présentes et mélanger le son original avec la voix générée.

Le téléphone à l’oreille facilite l’écoute sans équipement supplémentaire. Il peut toutefois rendre l’échange moins réciproque si l’utilisateur reste concentré sur l’appareil. L’utilité dépendra de la capacité de l’application à passer rapidement d’une direction de traduction à l’autre.

Google n’indique pas que toutes les fonctions seront disponibles simultanément sur chaque appareil, chaque langue ou chaque territoire. Comme souvent avec un déploiement progressif, certains utilisateurs peuvent devoir attendre avant de voir la nouvelle expérience.

Google Meet vise les réunions réellement multilingues

Dans Google Meet, Gemini 3.5 Live Translate commencera en préversion privée auprès de certains clients Google Workspace au cours de juin 2026. Un déploiement plus large est annoncé plus tard dans l’année.

L’enjeu dépasse le sous-titrage. Les participants doivent entendre une voix traduite qui suit la conversation sans interrompre le rythme de la réunion.

Cette fonctionnalité peut transformer les échanges internationaux, les formations et les conférences. Elle réduit la fatigue liée à la lecture continue de sous-titres et permet de regarder l’interlocuteur plutôt qu’une zone de texte.

Elle ne remplace pas nécessairement un interprète humain pour les négociations, la diplomatie, le droit ou la médecine. Dans ces contextes, un terme ambigu, une nuance culturelle ou une erreur de négation peut avoir une conséquence importante.

La réunion professionnelle pose aussi le problème des conversations croisées. Plusieurs personnes peuvent parler rapidement, s’interrompre ou utiliser des microphones de qualité différente. La documentation de Google reconnaît que les changements rapides de locuteur restent une source de confusion vocale.

Le gain devra donc être évalué dans des conditions ordinaires, pas seulement sur une personne parlant clairement dans une pièce silencieuse.

L’API ouvre la traduction simultanée aux applications tierces

Les développeurs peuvent tester le modèle en préversion publique dans Google AI Studio et via la Gemini Live API. Google propose des exemples en Python, JavaScript et WebSocket.

Le service détecte la langue d’entrée et demande principalement au développeur de définir la langue cible. Une option permet de répéter l’audio lorsque la personne parle déjà dans la langue cible, ou de rester silencieux.

Des plateformes spécialisées dans les communications en temps réel, comme Agora, LiveKit, Fishjam et Pipecat, proposent déjà des intégrations. Elles prennent en charge la diffusion audio, la gestion des sessions et les connexions nécessaires à une application de voix.

Grab teste le modèle pour les appels entre conducteurs et voyageurs lors des prises en charge. L’entreprise indique que ses utilisateurs passent plus de dix millions d’appels vocaux par mois, ce qui fournit un cas d’usage concret : une conversation courte, urgente, souvent menée dans un environnement bruyant.

La préversion signifie que l’interface, la qualité et les limites peuvent encore évoluer. Une entreprise ne devrait pas considérer le modèle comme une dépendance stable sans prévoir des erreurs, des changements de version et un mécanisme de secours.

Le prix rend possible un usage fréquent, mais pas gratuit à grande échelle

Google facture le modèle à partir de la quantité d’audio traitée. Le tarif payant correspond approximativement à 0,0368 dollar par minute, en additionnant l’entrée et la sortie audio.

Le détail est de 3,50 dollars par million de tokens audio en entrée, soit environ 0,0053 dollar par minute, et 21 dollars par million de tokens en sortie, soit environ 0,0315 dollar par minute.

Une heure de traduction continue représente donc environ 2,21 dollars de traitement API, hors infrastructure de communication, stockage, réseau et marge de la plateforme qui intègre le service.

Ce coût est faible pour une réunion ponctuelle ou un appel client à forte valeur. Il devient significatif pour un centre d’assistance, une plateforme de diffusion ou des milliers de conversations quotidiennes.

Un niveau gratuit existe avec des limites. Google précise que les contenus du niveau gratuit peuvent être utilisés pour améliorer ses produits, tandis que les données du niveau payant ne le sont pas selon le tableau tarifaire. Les développeurs manipulant des conversations sensibles devront donc choisir le régime adapté et examiner les conditions applicables.

Les évaluations restent principalement internes

La fiche du modèle indique trois dimensions d’évaluation : qualité de traduction, latence et naturel de la parole.

Google utilise notamment AutoMQM, une métrique automatique qui identifie et classe différents types d’erreurs de traduction. L’entreprise mesure aussi le délai initial avant le début de la voix traduite et la latence au niveau des mots.

Pour la synthèse vocale, les tests cherchent des coupures, des changements de voix et des artefacts. Ces critères correspondent bien aux défauts perceptibles dans une conversation réelle.

Mais Google ne publie pas de tableau chiffré comparant Gemini 3.5 Live Translate à des concurrents, à des interprètes humains ou à sa génération précédente pour chaque langue. La fiche indique que les évaluations reposent sur des implémentations internes.

Il est donc possible de vérifier la méthode générale, mais pas encore d’établir précisément le gain moyen annoncé. Les premiers retours de Grab, CJ ENM et LiveKit sont ceux de partenaires précoces, pas des audits indépendants.

La qualité devra être mesurée sur des accents, des environnements sonores et des domaines variés. Une conversation touristique, une réunion technique et un échange médical ne présentent ni le même vocabulaire ni le même niveau de risque.

Accents, bruit et changements de langue restent difficiles

La documentation officielle énumère plusieurs limites qui peuvent affecter l’expérience.

La détection de langue peut hésiter avec un accent marqué, deux langues proches comme l’espagnol et le portugais, ou des changements rapides au sein d’une même conversation. Google estime que cette difficulté devrait surtout toucher la transcription d’entrée, mais elle peut rendre l’interface moins compréhensible.

Le bruit de fond et la musique ne sont pas toujours éliminés. Dans un restaurant, une gare ou un véhicule, le modèle peut laisser passer des sons ou introduire des artefacts dans la voix traduite.

La stabilité vocale pose un autre problème. Après un silence prolongé, la voix générée peut changer. Dans une conversation à plusieurs personnes, elle peut attribuer le mauvais timbre à un intervenant ou conserver une seule voix.

Ces défauts ne rendent pas le produit inutilisable, mais ils limitent la promesse de préserver l’identité et l’expression du locuteur. Ils rappellent aussi qu’une traduction audio naturelle peut sembler plus fiable qu’elle ne l’est.

Une voix fluide donne une impression de certitude. L’utilisateur peut ne pas voir qu’un mot a été mal compris ou qu’une nuance a disparu, contrairement à un sous-titre qu’il peut relire.

SynthID doit signaler que la voix traduite est générée

Tout l’audio produit par Gemini 3.5 Live Translate reçoit un filigrane SynthID imperceptible. Google insère ce signal directement dans la sortie afin qu’un système compatible puisse détecter qu’elle a été générée par une IA.

Ce marquage répond à un risque évident : le modèle produit une voix qui conserve certaines caractéristiques du locuteur. Un extrait sorti de son contexte pourrait être utilisé comme s’il s’agissait d’un enregistrement authentique.

SynthID n’empêche pas la copie, le montage ou la diffusion. Il fournit un indice technique pour les plateformes et les outils de vérification. Son efficacité dépend de la résistance du signal aux compressions, transformations et réenregistrements.

La présence du filigrane ne résout pas non plus le consentement. Une réunion ou un appel traduit par IA traite la voix de plusieurs personnes. Les organisations devront informer les participants, définir la conservation des flux et vérifier les règles locales applicables à l’enregistrement et au traitement audio.

La traduction devient une couche d’infrastructure vocale

Gemini 3.5 Live Translate montre que la traduction n’est plus seulement une fonction dans une application. Google veut en faire une brique intégrable aux appels, réunions, cours, visites, médias et services de mobilité.

Le changement principal est temporel. Une bonne traduction livrée trente secondes plus tard reste utile pour un document ; elle échoue dans une conversation. En réduisant le retard à quelques secondes, le modèle cherche à préserver le rythme social de l’échange.

La disponibilité simultanée dans Google Translate, Meet et l’API donne à Google trois terrains d’apprentissage : le grand public, l’entreprise et les applications tierces. Cette distribution peut accélérer l’adoption plus rapidement qu’un modèle réservé aux développeurs.

Le produit reste néanmoins en préversion dans l’API et dans Meet. Sa voix peut dériver, sa détection peut hésiter et ses évaluations détaillées ne sont pas publiques. Dans les usages sensibles, une traduction humaine ou une vérification écrite restera nécessaire.

La réussite ne se mesurera pas uniquement au nombre de langues. Elle dépendra de la capacité à conserver le sens lorsque les personnes parlent vite, se coupent, ont un accent ou évoluent dans un environnement bruyant.

Si Google tient cette promesse, la traduction vocale cessera progressivement d’être un échange avec une machine pour devenir une couche presque invisible entre deux personnes. C’est cette disparition de l’attente, plus encore que la synthèse vocale, qui constitue la véritable nouveauté.

Références

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.