Un agent d’intelligence artificielle peut ouvrir des fichiers de séquençage, lancer un script et produire des résultats intermédiaires plausibles. Mais sait-il reconnaître qu’un signal biologique est contaminé, qu’un contrôle est inadéquat ou qu’un seuil pertinent pour une expérience ne l’est pas pour une autre ?
Une nouvelle prépublication tente de mesurer précisément cet écart. EpiBench soumet des agents IA à 106 décisions tirées de flux de travail réalistes en épigénomique. Sur 5 088 trajectoires valides produites par 16 couples associant un modèle et un environnement agentique, aucun système ne réussit la majorité de ses tentatives.
Le meilleur résultat atteint 45 % de réussite complète. Ce score ne montre pas que les agents sont inutiles en bioinformatique. Il révèle plutôt une frontière devenue centrale pour l’IA scientifique : automatiser une opération n’est pas encore comprendre l’expérience qui lui donne du sens.
L’épigénomique observe la manière dont le génome est utilisé
Toutes les cellules d’un organisme possèdent, à quelques exceptions près, le même ADN. Pourtant, une cellule du foie ne fonctionne pas comme un neurone ou une cellule immunitaire. Une partie de cette différence vient de l’épigénome, c’est-à-dire de marques et d’états physiques qui influencent l’activité des gènes sans modifier la séquence de l’ADN.
Ces signaux comprennent notamment la méthylation de l’ADN, les modifications des protéines histones autour desquelles l’ADN s’enroule, ou encore le degré d’ouverture de la chromatine. Une région accessible peut être plus facilement utilisée par la machinerie cellulaire ; une région compacte peut au contraire rester silencieuse.
Les chercheurs disposent de plusieurs familles de protocoles pour mesurer ces phénomènes. EpiBench couvre :
- ATAC-seq, utilisé pour repérer les régions de chromatine accessibles ;
- ChIP-seq, qui localise certaines protéines ou modifications d’histones liées à l’ADN ;
- CUT&Tag et CUT&RUN, deux méthodes permettant d’étudier des interactions ciblées avec la chromatine ;
- des analyses de méthylation de l’ADN.
Ces techniques produisent des fichiers volumineux et des signaux qui peuvent se ressembler en surface. Leur interprétation dépend cependant du protocole, des contrôles, de la qualité des données et de la question biologique.
106 décisions courtes plutôt qu’une expérience entièrement automatisée
EpiBench ne demande pas à un agent de concevoir seul une étude, de préparer des échantillons puis de publier une découverte. Le benchmark isole des décisions de courte durée à partir d’un état réaliste du flux d’analyse.
L’agent peut devoir identifier les bons fichiers, calculer une statistique, comparer des pistes génomiques ou choisir une réponse à partir d’éléments présents dans l’environnement. Chaque tâche possède une réponse vérifiable automatiquement. Cette conception limite la part de jugement humain dans la notation et permet de répéter les essais.
Les auteurs ont évalué 16 couples “modèle-environnement”. Cette distinction est importante. Un même grand modèle de langage peut obtenir des résultats différents selon le logiciel qui lui fournit les outils, organise son contexte, exécute ses commandes et lui renvoie les erreurs.
Chaque couple a été essayé plusieurs fois sur les tâches, ce qui aboutit à 5 088 trajectoires valides. Le nombre permet d’observer non seulement la performance moyenne, mais aussi l’instabilité : un agent peut réussir une décision lors d’une tentative et échouer sur la même catégorie lors d’une autre.
Le meilleur système reste sous la barre d’une tentative sur deux
Le couple GPT-5.5 avec l’environnement Pi arrive en tête avec 143 réussites sur 318 tentatives, soit 45 %. L’intervalle de confiance à 95 % rapporté par les auteurs s’étend de 36,3 % à 53,7 %.
GPT-5.5 utilisé dans OpenAI Codex atteint 39,9 %, avec 127 réussites sur 318. Claude Opus 4.8 Max avec Pi et GPT-5.4 avec Pi obtiennent chacun 39 %.
Ces écarts ne doivent pas être transformés trop vite en classement définitif des modèles. Les intervalles de confiance se chevauchent, les performances changent selon les types d’essais biologiques et le benchmark mesure un ensemble précis de tâches. Il renseigne davantage sur l’état actuel de l’automatisation agentique que sur une hiérarchie universelle.
Le constat robuste est plus simple : aucune configuration ne passe la majorité des tentatives. Même avec des modèles avancés, un environnement d’exécution et des données accessibles, la fiabilité de bout en bout reste insuffisante pour déléguer ces décisions sans contrôle.
Trouver les fichiers ne suffit pas à choisir la bonne analyse
L’un des résultats les plus instructifs concerne les échecs partiels. De nombreuses trajectoires incorrectes contiennent tout de même des éléments utiles. Les agents trouvent souvent les bons fichiers et calculent des résultats intermédiaires pertinents.
Le problème apparaît lorsque la réponse exige un raisonnement spécifique au protocole. Une mesure acceptable pour ATAC-seq ne s’interprète pas nécessairement comme une mesure de méthylation. Un signal peut être techniquement présent mais biologiquement douteux. Un contrôle peut être correctement chargé tout en étant mal choisi pour la comparaison.
Cette distinction rappelle celle qui existe entre trois niveaux d’automatisation :
- Manipuler l’environnement : parcourir les dossiers, lire les métadonnées et lancer un outil.
- Exécuter une procédure : enchaîner les commandes et produire les sorties attendues.
- Justifier une décision scientifique : relier le résultat au protocole, aux contrôles et à l’hypothèse étudiée.
Les agents progressent rapidement sur les deux premiers niveaux. EpiBench suggère que le troisième demeure le principal obstacle.
Pourquoi une réponse plausible peut devenir dangereuse
En bioinformatique, une erreur ne prend pas toujours la forme d’un programme qui plante. Le script peut s’exécuter, le graphique peut sembler propre et le résultat peut entrer dans une plage crédible. C’est précisément ce qui rend le contrôle difficile.
Une réponse fausse mais bien présentée peut orienter la suite du travail : éliminer un échantillon valide, conserver une expérience de mauvaise qualité, choisir la mauvaise comparaison ou interpréter comme biologique un artefact technique. L’erreur peut ensuite se propager dans l’analyse statistique, la sélection des candidats et la rédaction.
Un agent scientifique ne devrait donc pas être évalué uniquement sur sa capacité à produire une réponse finale. Il faut aussi pouvoir examiner :
- les fichiers qu’il a sélectionnés ;
- les commandes qu’il a exécutées ;
- les résultats intermédiaires qu’il a retenus ;
- les contrôles qu’il a comparés ;
- le degré d’incertitude associé à sa décision.
Le format vérifiable d’EpiBench va dans cette direction. Il offre un moyen de mesurer des progrès concrets sans se contenter d’une démonstration impressionnante choisie à la main.
Un outil d’assistance crédible avant un laboratoire autonome
Les scores ne condamnent pas l’usage des agents en génomique. Ils aident au contraire à définir un rôle réaliste à court terme.
Un système peut préparer une analyse, inventorier les données, vérifier la présence de fichiers attendus, lancer des contrôles standardisés et signaler les cas ambigus. Un spécialiste garde alors la responsabilité des décisions qui exigent une connaissance du protocole ou du contexte biologique.
Cette organisation peut déjà faire gagner du temps, notamment dans les plateformes qui traitent de nombreux jeux de données. Elle suppose toutefois que l’agent conserve une trace complète de ses actions et qu’il sache s’arrêter lorsqu’il ne dispose pas des éléments nécessaires.
Le bon objectif n’est pas de masquer l’incertitude derrière une réponse unique. Il est de transformer l’agent en collaborateur auditable, capable de présenter ses calculs, ses hypothèses et les points qui nécessitent une validation humaine.
Ce que le benchmark ne permet pas encore d’affirmer
EpiBench est une prépublication récente, qui n’a pas encore passé le processus complet d’évaluation par les pairs. Ses 106 tâches couvrent plusieurs protocoles importants, mais elles ne représentent pas toute la diversité de l’épigénomique.
Le benchmark privilégie également des décisions courtes et des réponses déterministes. Cette approche facilite une notation rigoureuse, mais laisse de côté des dimensions importantes du travail scientifique : formuler une hypothèse, intégrer la littérature, débattre de plusieurs interprétations ou concevoir une expérience de suivi.
Enfin, un taux de réussite sur ces tâches ne mesure pas directement la qualité d’un usage réel encadré par un chercheur. Un agent peu fiable en autonomie peut rester utile avec des validations obligatoires. À l’inverse, un bon score moyen ne garantit pas qu’une erreur rare sera acceptable dans un projet clinique ou coûteux.
Le prochain progrès devra porter sur la traçabilité
EpiBench déplace utilement le débat. La question n’est plus seulement de savoir si un modèle peut écrire du code scientifique. Il faut déterminer s’il prend la bonne décision, pour la bonne raison, dans un protocole donné.
Les futurs systèmes devront mieux représenter les contraintes propres aux différents essais, détecter les situations ambiguës et calibrer leur confiance. Ils devront aussi exposer des preuves assez claires pour qu’un biologiste puisse vérifier rapidement le chemin suivi.
Le score de 45 % n’est donc ni une défaite définitive ni la promesse d’une automatisation imminente. C’est un point de mesure. Il montre que l’IA sait déjà accomplir une part substantielle du travail mécanique, mais que la compétence la plus précieuse du scientifique reste difficile à reproduire : reconnaître quand un résultat techniquement correct ne répond pas encore à la bonne question biologique.
Références
- EpiBench: Verifiable Evaluation of AI Agents on Epigenomics Analysis, prépublication arXiv mise en ligne le 12 juin 2026.
- Epigenomics Fact Sheet, National Human Genome Research Institute.
- ENCODE Project, consortium de référence sur les éléments fonctionnels du génome.

