Meta n’a pas annoncé un « Brain2Qwerty V2 ». Le nom circule facilement parce que l’entreprise travaille sur plusieurs projets mêlant intelligence artificielle et neurosciences. Le modèle récent s’appelle en réalité TRIBE v2. Et la différence n’est pas seulement sémantique.
Brain2Qwerty, présenté en 2025, cherchait à reconstruire des caractères à partir de signaux cérébraux enregistrés pendant que des volontaires tapaient des phrases. TRIBE v2 effectue le trajet inverse : on lui fournit une vidéo, un son ou un texte, et il prédit la réponse que ces stimuli devraient provoquer dans le cerveau, telle qu’elle serait observée par imagerie par résonance magnétique fonctionnelle, ou IRMf.
Développé par FAIR, le laboratoire de recherche fondamentale de Meta, ce modèle multimodal s’appuie sur plus de 1 000 heures d’enregistrements IRMf provenant de 720 personnes. Le code et les poids ont été publiés sous une licence autorisant l’usage non commercial. Une étude complémentaire mise en ligne le 4 juin 2026 montre déjà comment ses prédictions pourraient servir à fabriquer des données cérébrales synthétiques et à réduire, dans certains scénarios, le besoin de longues sessions en scanner.
La perspective est importante pour les neurosciences. Elle ne signifie toutefois ni que Meta sait lire les pensées, ni qu’une simulation peut remplacer un cerveau humain.
TRIBE v2 ne lit pas le cerveau, il prédit sa réaction
Pour comprendre le modèle, il faut distinguer deux familles de systèmes.
Un décodeur cérébral part d’une activité mesurée et tente d’en déduire ce que la personne a vu, entendu, voulu dire ou effectué. Brain2Qwerty appartenait à cette catégorie : le signal EEG ou MEG constituait l’entrée, le texte prédit était la sortie.
Un modèle d’encodage, comme TRIBE v2, part du stimulus. Il reçoit par exemple un extrait de film et estime quelles zones corticales devraient présenter une variation de leur signal IRMf au fil du temps. Ce n’est donc pas un appareil qui devine une pensée secrète. Il produit une carte statistique de la réponse cérébrale attendue face à un contenu connu.
Cette nuance change entièrement les usages possibles. TRIBE v2 pourrait aider un laboratoire à préparer une expérience, choisir les stimuli les plus informatifs ou tester une hypothèse avant de réserver des dizaines d’heures de scanner. Il ne permet pas d’observer à distance l’activité d’une personne ni d’identifier librement ce qu’elle pense.
Trois modalités réunies dans une même architecture
TRIBE signifie Tri-modal Brain Encoder. Le modèle analyse trois catégories d’information :
- la vidéo, avec des représentations issues de V-JEPA 2 ;
- l’audio, à l’aide de Wav2Vec-BERT 2.0 ;
- le langage, avec Llama 3.2.
Ces modèles préentraînés servent d’extracteurs de caractéristiques. Ils transforment les images, les sons et les mots en représentations numériques que TRIBE v2 aligne dans le temps, puis combine avec un transformeur. Une dernière partie de l’architecture projette ces représentations sur la surface corticale.
L’idée est proche d’un traducteur entre deux espaces : d’un côté, la structure d’un contenu audiovisuel ou linguistique ; de l’autre, la réponse IRMf moyenne associée. Le système n’apprend pas la neurobiologie à partir de zéro. Il exploite des modèles d’IA déjà capables de représenter le mouvement, la parole et le sens des mots, puis apprend comment ces représentations correspondent aux mesures cérébrales.
Plus de 1 000 heures d’IRMf réunies
Les modèles de neurosciences sont souvent spécialisés. Un laboratoire entraîne un système sur quelques participants, un type de stimulus et une tâche précise. Les résultats peuvent être bons dans ce cadre, puis se dégrader dès que l’on change de personne, de protocole ou de jeu de données.
TRIBE v2 cherche à dépasser cette fragmentation. Les chercheurs ont rassemblé plusieurs études totalisant plus de 1 000 heures d’IRMf auprès de 720 sujets. Les participants avaient été exposés à des situations variées : films, podcasts, images, mots isolés ou protocoles expérimentaux plus classiques.
L’échelle ne rend pas automatiquement le modèle universel. Sept cent vingt personnes restent une population limitée au regard de la diversité humaine. Les scanners, les méthodes de prétraitement et les protocoles diffèrent également. Le travail est néanmoins inhabituellement vaste pour un modèle d’encodage cérébral et lui permet de viser une généralisation à de nouveaux contenus, de nouvelles tâches et de nouveaux participants.
Une prédiction « zero-shot » pour de nouveaux sujets
Dans les évaluations rapportées par les auteurs, TRIBE v2 peut produire une réponse cérébrale moyenne pour des participants qu’il n’a jamais vus, sans nouvel entraînement. Les chercheurs parlent de généralisation zero-shot.
Sur plusieurs jeux de données, la prédiction du modèle se rapproche davantage de la réponse moyenne du groupe que l’enregistrement d’un grand nombre de participants pris individuellement. Cette formulation peut sembler spectaculaire, mais elle décrit un phénomène statistique connu : chaque cerveau et chaque mesure IRMf comportent du bruit et des variations individuelles, tandis qu’une moyenne de groupe lisse une partie de ces différences.
TRIBE v2 est donc particulièrement adapté à la prédiction d’un cerveau moyen. Pour modéliser une personne précise, les auteurs montrent qu’un ajustement avec au maximum une heure de données individuelles améliore les résultats. Ce besoin de personnalisation rappelle que le modèle ne capture pas parfaitement les particularités anatomiques, cognitives ou cliniques de chacun.
Rejouer des expériences de neurosciences dans un ordinateur
L’ambition la plus originale de TRIBE v2 concerne les expériences dites in silico. Au lieu de soumettre immédiatement des volontaires à un protocole, un chercheur peut d’abord présenter les stimuli au modèle et observer les réponses corticales prédites.
Les auteurs ont testé le système sur plusieurs paradigmes classiques. Face à des visages, des lieux, des corps ou des caractères écrits, TRIBE v2 retrouve des zones cérébrales connues pour leur sélectivité. Avec des phrases parlées, il reproduit la propagation attendue depuis le cortex auditif vers le réseau du langage. Il fait également apparaître des régions associées à certains contrastes linguistiques et émotionnels.
Ces reproductions constituent un contrôle utile : un modèle qui échouerait sur des résultats établis depuis des décennies serait difficile à employer pour explorer de nouvelles hypothèses. Elles ne prouvent cependant pas que toutes les prédictions inédites seront correctes. Un système entraîné sur des données existantes peut apprendre les régularités du passé et les restituer sans découvrir les mécanismes biologiques qui les causent.
TRIBE v2 doit donc être vu comme un simulateur de réponses mesurées, non comme une théorie complète du cerveau.
Les données cérébrales synthétiques passent un premier test
Une seconde étude de l’équipe, publiée en préversion le 4 juin, évalue un usage concret : générer des réponses IRMf synthétiques afin d’entraîner des modèles qui reconstruisent ou retrouvent une image à partir d’un signal cérébral.
La collecte d’IRMf est coûteuse et lente. Les systèmes de décodage performants demandent souvent des milliers de couples associant un stimulus à la réponse du même participant. Les chercheurs ont donc utilisé TRIBE v2 pour compléter des jeux de données réelles avec des exemples artificiels.
Dans les régimes où les données manquent, cette augmentation améliore certaines performances de décodage d’image, avec un gain relatif pouvant atteindre 68 % dans les conditions testées. Pour une reconstruction générative préliminaire, l’ajout d’une quantité modérée de données synthétiques améliore aussi plusieurs métriques.
Le résultat le plus instructif est peut-être sa limite. Ajouter toujours plus de données produites par TRIBE v2 ne garantit pas une amélioration continue. Les performances finissent par saturer, puis peuvent diminuer lorsque les exemples synthétiques prennent trop de place. Le bon dosage dépend du jeu de données, du sujet et du type de décodeur.
Autrement dit, les données artificielles complètent les scans réels ; elles ne les rendent pas inutiles.
Ce que l’IRMf mesure réellement
L’IRM fonctionnelle ne filme pas directement les neurones. Elle observe le signal BOLD, lié aux variations d’oxygénation du sang qui accompagnent l’activité cérébrale. Cette réponse hémodynamique arrive avec plusieurs secondes de retard et offre une résolution temporelle bien plus faible que l’activité électrique des neurones.
TRIBE v2 prédit donc une mesure indirecte, lente et spatialement agrégée. Il peut produire une carte fine à l’échelle de la surface corticale, mais cette finesse ne doit pas être confondue avec la lecture de neurones individuels ou de pensées précises.
Le modèle hérite aussi des limites de ses données :
- les réponses moyennes peuvent masquer des différences individuelles importantes ;
- les associations apprises ne démontrent pas un lien causal ;
- un biais dans les participants ou les stimuli peut se retrouver dans les prédictions ;
- les performances sur des personnes malades ou des situations inhabituelles restent à établir ;
- une prédiction convaincante visuellement peut malgré tout être fausse dans une région déterminante.
Ces réserves sont essentielles si la technologie est un jour utilisée pour orienter des recherches cliniques. Une simulation ne doit pas devenir un substitut silencieux à la validation expérimentale.
Un modèle ouvert, mais pas libre pour tous les usages
Meta met à disposition le code, les poids et une démonstration de TRIBE v2. Le dépôt officiel permet de fournir une vidéo, un fichier audio ou du texte et d’obtenir une prédiction sur une surface corticale standard.
La licence est toutefois CC BY-NC 4.0 : elle autorise la réutilisation avec attribution dans un cadre non commercial, mais ne donne pas un droit général d’exploitation commerciale. Cette distinction compte pour les entreprises qui voudraient transformer le modèle en outil de neuromarketing, d’évaluation de contenus ou de santé.
La publication ouverte facilite en revanche la réplication académique. Des équipes indépendantes peuvent tester les performances sur d’autres populations, identifier les erreurs et comparer les prédictions à de nouvelles acquisitions. Pour un modèle scientifique, cette confrontation est plus importante que la seule disponibilité d’une démonstration spectaculaire.
Pourquoi TRIBE v2 est plus important qu’un faux « lecteur de pensées »
Présenter TRIBE v2 comme une machine qui lit le cerveau serait accrocheur, mais trompeur. Son intérêt réel est plus technique et probablement plus utile : construire un modèle généraliste capable de relier des contenus multimodaux à des réponses IRMf et de servir de banc d’essai avant une expérience humaine.
Si cette approche se confirme, elle pourrait accélérer la conception de protocoles, aider les petits laboratoires à travailler avec moins de données et produire des hypothèses plus ciblées. Elle pourrait aussi créer un risque méthodologique : celui de multiplier les expériences virtuelles fondées sur les mêmes biais, puis de prendre la cohérence du modèle pour une preuve biologique.
Le progrès ne se mesurera donc pas au nombre de cartes cérébrales générées, mais à leur capacité à prédire des résultats nouveaux, vérifiés ensuite sur de vraies personnes. TRIBE v2 ne remplace ni l’IRMf ni l’expérimentation. Il propose une étape intermédiaire : simuler d’abord, mesurer ensuite, et comparer les deux sans confondre prédiction et compréhension.
Références
- Meta FAIR — TRIBE v2, code et documentation officielle
- d’Ascoli et al. — A foundation model of vision, audition, and language for in-silico neuroscience, arXiv, mai 2026
- Meta — poids et fiche du modèle TRIBE v2 sur Hugging Face
- Benchetrit et al. — Boosting Brain-to-Image Decoding with TRIBE v2 Data Augmentation, arXiv, 4 juin 2026
- Meta FAIR — Brain2Qwerty, le projet distinct de décodage cerveau-vers-texte publié en 2025

