Les modèles de langage ont été entraînés à répondre à des questions toujours plus difficiles. Mais savent-ils reconnaître la question qu’il faudrait poser avant d’agir ? Une étude menée par des chercheurs du MIT et de Harvard montre que cette compétence reste un point faible majeur des agents d’intelligence artificielle.
Pour l’étudier, l’équipe a transformé la bataille navale en expérience de laboratoire. Dans cette version collaborative, un agent doit localiser des navires cachés en interrogeant un partenaire qui voit le plateau. Il doit choisir entre demander une information supplémentaire et tenter immédiatement sa chance.
Le résultat publié par le MIT le 3 juin 2026 est frappant. Sans méthode particulière, le modèle Llama 4 Scout ne battait les participants humains que dans 8 % des parties. Après l’ajout d’une stratégie probabiliste inspirée du raisonnement bayésien, son taux de victoire atteint 82 %. Dans une autre comparaison, le petit modèle dépasse GPT-5 tout en fonctionnant, selon les auteurs, pour environ 1 % de son coût.
Cette expérience ne prouve pas qu’un agent bon à la bataille navale saura conduire une recherche scientifique ou établir un diagnostic. Elle révèle toutefois un principe important : augmenter la taille d’un modèle n’est pas la seule manière d’améliorer un agent. Lui donner une représentation explicite de l’incertitude et une méthode pour choisir ses questions peut compter davantage.
Un jeu simple pour mesurer une compétence difficile
La plupart des évaluations de modèles de langage leur présentent une question déjà formulée. Le système doit alors retrouver une information, résoudre un problème ou produire une réponse. Dans la vie réelle, la difficulté commence souvent plus tôt.
Un médecin doit décider quel examen demander. Un chercheur choisit l’expérience qui permettra de départager plusieurs hypothèses. Un technicien cherche la vérification la plus utile pour isoler une panne. Dans chacun de ces cas, poser une mauvaise question peut consommer du temps, de l’argent ou des données sans réduire suffisamment l’incertitude.
Les chercheurs ont conçu Collaborative Battleship pour reproduire ce mécanisme dans un environnement contrôlé. Deux rôles sont séparés :
- le capitaine ne voit qu’une partie du plateau et doit poser des questions ou choisir une case à viser ;
- l’observateur connaît la position des navires et doit répondre correctement aux questions exprimées en langage naturel.
L’équipe a d’abord fait jouer 42 personnes afin d’obtenir une référence humaine et de construire le jeu de données BattleshipQA. Elle a ensuite évalué quinze modèles de langage, des systèmes relativement légers jusqu’aux modèles les plus avancés.
Ce protocole mesure plusieurs capacités qui sont souvent confondues sous le terme général de « raisonnement ». L’agent doit comprendre l’état du jeu, conserver les informations déjà reçues, imaginer les configurations encore possibles, formuler une question utile et décider quand il vaut mieux agir.
Pourquoi les modèles posent souvent des questions médiocres
Les modèles testés savent produire des questions grammaticalement correctes. Le problème est leur valeur informative. Certains répètent une interrogation déjà résolue, se concentrent sur une zone peu probable ou demandent une information qui élimine très peu d’hypothèses.
Cette faiblesse s’explique en partie par leur mode d’entraînement. Un modèle de langage apprend principalement à prédire la suite la plus plausible d’un texte. Il peut reproduire la forme d’une bonne enquête sans disposer d’un mécanisme fiable pour calculer quelle question réduira le plus l’incertitude.
Les agents rencontrent aussi un problème d’ancrage dans la situation. L’observateur peut donner une réponse qui semble cohérente en langage naturel mais contredit la configuration réelle du plateau. Or une seule erreur peut orienter tout le raisonnement suivant vers une fausse piste.
Enfin, le capitaine doit arbitrer entre exploration et exploitation. Poser une nouvelle question peut améliorer sa connaissance du plateau, mais consomme un tour. Tirer immédiatement peut rapporter un point, au risque de viser presque au hasard. Ce dilemme apparaît dans de nombreuses applications réelles : faut-il collecter une donnée supplémentaire ou décider avec les informations disponibles ?
Un « modèle du monde » pour représenter les hypothèses
La méthode proposée ne consiste pas à réentraîner entièrement les modèles. Les chercheurs leur ajoutent, au moment de l’utilisation, un système probabiliste capable de simuler les états possibles du plateau.
À partir des tirs et réponses déjà observés, ce « modèle du monde » génère de nombreuses configurations compatibles avec les indices. Chaque configuration constitue une hypothèse. Lorsqu’une nouvelle information arrive, les hypothèses incompatibles perdent du poids et les autres deviennent plus probables.
Cette approche repose sur des techniques de Monte Carlo. Le nom désigne une famille de méthodes qui utilisent des échantillons aléatoires pour approximer un problème trop complexe à calculer exactement. Ici, l’agent ne parcourt pas toutes les dispositions possibles des navires. Il travaille sur un ensemble représentatif de plateaux plausibles.
Il peut alors construire une carte de probabilités. Une case présente dans de nombreuses hypothèses devient une cible intéressante. De la même manière, une question est utile si ses réponses possibles séparent efficacement l’ensemble des hypothèses.
Choisir la question qui apporte le plus d’information
Les chercheurs utilisent une mesure appelée gain d’information attendu. L’idée est intuitive : avant de poser une question, l’agent estime à quel point chaque réponse possible réduirait son incertitude.
Une question dont la réponse est presque certainement « oui » apprend généralement peu de choses. Il en va de même pour une question presque certainement négative. La question la plus informative tend à partager les hypothèses en groupes équilibrés, car chaque réponse élimine alors une grande partie des possibilités.
Le système génère plusieurs questions candidates, traduit chacune en opération vérifiable et estime son gain d’information. Il sélectionne ensuite celle qui semble la plus utile. Selon l’étude, cette stratégie atteint jusqu’à 94,2 % du gain maximal théoriquement accessible dans le cadre expérimental.
Le capitaine dispose aussi d’une règle pour choisir entre questionner et tirer. Il compare la valeur probable d’une information supplémentaire au bénéfice immédiat du meilleur tir disponible. Si la question devrait améliorer suffisamment la décision suivante, il explore. Sinon, il agit.
Le code sert de garde-fou contre les réponses inventées
Améliorer les questions ne suffit pas si le partenaire répond mal. Pour mieux ancrer l’observateur dans le plateau, l’équipe lui demande de convertir les questions en code Python.
Une demande comme « un navire occupe-t-il cette colonne sur deux lignes ? » devient une petite procédure qui vérifie directement les cases concernées. Le modèle n’a plus seulement à produire une réponse plausible : il formalise la question puis exécute une vérification sur l’état connu du jeu.
Cette technique améliore la précision des réponses de 14,7 points au maximum par rapport aux modèles utilisés seuls. Le gain moyen rapporté par le MIT est d’environ 15 %. GPT-4o mini progresse de près de 30 points dans certaines configurations, tandis que Claude 4 Opus gagne environ huit points.
Le principe dépasse la bataille navale. Traduire une question en requête structurée, en calcul ou en test exécutable peut réduire les erreurs lorsqu’un agent interroge une base de données, vérifie une contrainte ou analyse un système formel.
Il ne s’agit toutefois pas d’une garantie universelle. Le code peut lui-même être erroné, incomplet ou reposer sur une représentation incorrecte du problème. La vérification est utile lorsque l’environnement fournit une vérité accessible et des règles explicites. Elle devient beaucoup plus difficile face à des données ambiguës ou à des phénomènes mal compris.
Un petit modèle dépasse un grand grâce à sa méthode
Le chiffre le plus spectaculaire concerne Llama 4 Scout. Dans sa configuration de base, ce modèle relativement léger bat les humains dans seulement 8 % des parties. Avec les stratégies bayésiennes de questionnement, de ciblage et de décision, le taux atteint 82 %.
Les auteurs rapportent également un passage de 0 % à 67 % de victoires face à GPT-5, pour un coût équivalent à environ 1 % de celui du modèle frontière. Ce résultat ne signifie pas que Llama 4 Scout devient globalement supérieur à GPT-5. Il montre qu’un système spécialisé, équipé d’outils adaptés, peut dépasser un modèle beaucoup plus puissant sur une tâche précise.
Cette distinction est importante pour l’économie des agents IA. De nombreuses entreprises supposent qu’une meilleure performance exige automatiquement un modèle plus grand et plus cher. L’étude suggère une autre voie : utiliser un modèle plus modeste, mais structurer son exploration, ses vérifications et ses décisions.
Le coût annoncé doit néanmoins être lu dans le contexte du protocole. Il dépend des prix, du nombre d’appels et des stratégies testées. Il ne constitue pas une comparaison générale du coût total de possession entre modèles, notamment lorsqu’on ajoute l’infrastructure, la latence, le développement et la maintenance.
Le test sur « Qui est-ce ? » renforce le résultat
Pour vérifier que la méthode ne dépendait pas uniquement de la géométrie de la bataille navale, les chercheurs l’ont appliquée au jeu « Qui est-ce ? ». L’agent doit identifier un personnage caché parmi cent possibilités en posant des questions fermées.
Les stratégies proposées améliorent la précision de 28,3 à 42,4 points selon les configurations. Llama 4 Scout passe de 30 % à plus de 72 % de réussite, tandis que GPT-4o progresse de 62 % à 90 %.
Cette réplication est encourageante parce que le type d’hypothèse change. Dans un cas, l’agent raisonne sur la position de formes dans une grille. Dans l’autre, il élimine des personnages en fonction de leurs propriétés. Le mécanisme commun reste la recherche active d’information.
Deux jeux demeurent néanmoins des environnements simples. Les règles sont stables, l’espace des possibilités peut être simulé et les réponses sont essentiellement binaires. Une enquête scientifique réelle comporte des mesures bruitées, des causalités incertaines et parfois des hypothèses que personne n’a encore formulées.
Ce que cette étude change pour les agents IA
La recherche met en lumière une faiblesse souvent masquée par les démonstrations d’agents. Un système peut savoir utiliser des outils, rédiger un plan et enchaîner des actions, tout en choisissant mal les informations à recueillir. Il devient alors très actif sans être réellement efficace.
Pour construire des agents plus fiables, trois éléments apparaissent complémentaires :
- une représentation explicite de ce que le système sait et ignore ;
- une méthode pour mesurer la valeur d’une question ou d’une action ;
- des outils de vérification capables d’ancrer les réponses dans l’environnement.
Cette architecture est moins spectaculaire que l’annonce d’un modèle géant, mais elle répond à une contrainte pratique. Dans un laboratoire, une usine ou un service d’assistance, la ressource rare peut être le nombre d’expériences, le temps d’un expert ou l’accès à une machine. L’agent doit alors apprendre à ne pas gaspiller ses questions.
Les chercheurs souhaitent étendre leurs travaux à des espaces de recherche plus complexes, notamment en programmation, en mathématiques et dans la découverte scientifique. Ils veulent également étudier la collaboration entre humains et agents.
Des agents plus utiles s’ils savent reconnaître leur incertitude
L’apport principal de cette étude ne réside pas dans la capacité d’une IA à gagner à un jeu. Il tient à la séparation entre parler de manière convaincante et chercher une information rationnellement.
Un agent réellement utile ne devrait pas seulement répondre vite. Il devrait pouvoir maintenir plusieurs hypothèses, choisir l’observation qui les départage et vérifier que la réponse obtenue correspond au monde dans lequel il agit.
Le passage de 8 % à 82 % obtenu avec un petit modèle montre l’ampleur des progrès possibles sans changer de moteur principal. Mais le cadre expérimental rappelle aussi la distance qui reste à parcourir. Les jeux fournissent des règles propres et une vérité accessible ; le réel est plus ambigu.
La prochaine étape sera donc de vérifier si ces méthodes conservent leur avantage lorsque les questions coûtent cher, que les données sont imparfaites et qu’aucun simulateur ne connaît exactement toutes les réponses. C’est dans ces conditions que l’art de poser la bonne question deviendra une compétence décisive pour les agents IA.
Références
- MIT News – Teaching AI agents to ask better questions by playing “Battleship”
- OpenReview – Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People
- BattleshipQA – Site du projet et visualisation des expériences
- GitHub – Code de BattleshipQA

