Depuis plusieurs années, les modèles de langage impressionnent par leurs performances sur différents benchmarks. Pourtant, un nouveau test d’évaluation, baptisé Humanity’s Last Exam (HLE), vient de révéler des failles importantes dans leurs capacités à traiter des connaissances complexes.
Un benchmark conçu pour tester l’expertise réelle des IA
HLE n’est pas un test classique comme ceux utilisés jusqu’ici pour évaluer les IA. Il se distingue par la complexité et la rigueur de ses questions, qui couvrent un large éventail de disciplines nécessitant une véritable expertise humaine.
Quelques chiffres clés :
2700 questions formulées par 1000 experts issus de grandes institutions comme le MIT, Oxford et Stanford.
Des sujets variés allant de la biologie moléculaire à des concepts pointus en mathématiques avancées et linguistique ancienne.
Un processus de validation exigeant, où chaque question est testée sur plusieurs modèles avant d’être retenue.
L’objectif est simple : mesurer la capacité des IA à répondre à des questions qui, normalement, nécessitent des années d’études pour un humain.
Des résultats décevants pour les IA actuelles
Contrairement aux benchmarks traditionnels où les IA obtiennent souvent des scores élevés, les performances sur HLE sont nettement plus faibles.
Par exemple, alors que GPT-4o atteint plus de 90 % de réussite sur des tests comme MMLU, il chute à seulement 3,1 % sur HLE. Et ce n’est pas un cas isolé :
Claude 3.5 Sonnet : 4,8 %
Gemini 1.5 Pro : 5,2 %
o3-mini (high) : 14,0 % (le meilleur score du test)
Un autre problème majeur mis en lumière : les IA surestiment la justesse de leurs réponses. Plus de 90 % des erreurs observées sur HLE sont faites avec un haut degré de confiance, ce qui pose un réel défi en termes de fiabilité et d’interprétation des résultats.
Pourquoi ce benchmark est une avancée majeure ?
HLE change la façon dont on évalue les IA sur plusieurs aspects :
Il révèle le fossé entre IA et expertise humaine
Contrairement aux benchmarks classiques, HLE met en évidence que les modèles actuels sont encore loin d’égaler un expert humain sur des sujets spécialisés.
Un outil précieux pour la régulation de l’IA
Avec des initiatives comme l’AI Act en Europe, il devient crucial d’avoir des tests rigoureux pour évaluer les véritables capacités des modèles et leur fiabilité dans des contextes critiques.
Un indicateur clé pour l’évolution vers l’AGI
Si un modèle devait un jour atteindre 50 % de réussite sur HLE, cela signifierait une avancée majeure dans le domaine de l’intelligence artificielle, nécessitant une rupture technologique dans la conception des modèles.
Quelles perspectives pour l’avenir ?
Ces résultats posent plusieurs questions. Peut-on imaginer que GPT-5 ou un autre modèle atteindra bientôt des scores nettement plus élevés ? Pourquoi Mistral AI ne figure-t-il pas encore dans ces évaluations ?
Ce benchmark montre clairement que les IA sont encore loin d’une véritable compréhension experte. Pourtant, avec l’évolution rapide des modèles, il sera intéressant de voir si ces limites peuvent être franchies dans les prochaines générations.
📌 Pour aller plus loin, voici le lien vers le benchmark HLE :
🔗 https://arxiv.org/pdf/2501.14249