ChatGPT : la proposition d’OpenAI pour éviter les hallucinations pourrait tuer son propre chatbot

Source: The Conversation – France in French (2) – By Wei Xing, Assistant Professor, School of Mathematical and Physical Sciences, University of Sheffield

Parce que les classements comparatifs d’IA pénalisent les modèles qui préfèrent ne pas répondre plutôt que de piocher une réponse au hasard, les hallucinations perdurent, estime OpenAI dans son dernier article de recherche. Mais la solution que propose le géant de l’intelligence artificielle pourrait conduire à sa propre perte.


Dans un article récent, des chercheurs d’OpenAI expliquent pourquoi ChatGPT et d’autres grands modèles de langage peuvent inventer des choses – un phénomène connu dans le monde de l’intelligence artificielle sous le nom d’« hallucination ». Ils révèlent aussi pourquoi ce problème pourrait être impossible à résoudre, du moins pour le grand public.

L’article en question propose l’explication mathématique la plus rigoureuse à ce jour sur les raisons pour lesquelles ces modèles énoncent des contre-vérités avec assurance. Il montre qu’il ne s’agit pas simplement d’un effet secondaire malheureux de la façon dont les IA sont actuellement entraînées, mais d’un phénomène mathématiquement inévitable. Le problème s’explique en partie par des erreurs dans les données sous-jacentes utilisées pour entraîner les IA. Mais grâce à une analyse mathématique de la façon dont les systèmes d’IA apprennent, les chercheurs prouvent que même avec des données d’entraînement parfaites, le problème persiste.

La façon dont les modèles de langage répondent aux requêtes – en prédisant un mot à la fois dans une phrase, sur la base de probabilités – produit naturellement des erreurs. Des chercheurs ont d’ailleurs montré que le taux d’erreur total pour générer des phrases est au moins deux fois plus élevé que le taux d’erreur que la même IA aurait sur une simple question fermée par oui ou non, car les erreurs peuvent s’accumuler au fil des prédictions successives. Autrement dit, les taux d’hallucination sont fondamentalement liés à la capacité des systèmes d’IA à distinguer les réponses valides des réponses invalides. Comme ce problème de classification est intrinsèquement difficile dans de nombreux domaines de connaissance, les hallucinations deviennent inévitables.

Il s’avère également que moins un modèle rencontre un fait durant son entraînement, plus il est susceptible d’halluciner lorsqu’on l’interroge à ce sujet. Pour les dates de naissance, par exemple, les auteurs démontrent que si 20 % de ces dates n’apparaissent qu’une seule fois dans les données d’entraînement, on doit s’attendre à ce que les modèles de base se trompent sur au moins 20 % des questions portant sur les anniversaires. Et effectivement, interrogé sur la date de naissance d’Adam Kalai (un des auteurs de l’article), DeepSeek-V3 a donné avec assurance trois dates différentes et toutes fausses lors de tentatives séparées : « 03-07 », « 15-06 » et « 01-01 ». La date correcte se situe en automne, donc aucune de ces réponses n’était même proche de la réalité.

Le piège de l’évaluation

Ce qui est plus troublant, c’est l’analyse de l’article sur les raisons pour lesquelles les hallucinations persistent malgré les efforts « post-training » (comme l’apprentissage par renforcement à partir de rétroaction humaine). Les auteurs ont examiné dix grands comparatifs d’IA, y compris ceux utilisés par Google, OpenAI, ainsi que les meilleurs classements qui évaluent les modèles d’IA. Leur travail a révélé que neuf de ces benchmarks utilisent des systèmes de notation binaires qui attribuent zéro point aux IA exprimant une incertitude.

Cela engendre ce que les auteurs appellent une « épidémie » où l’incertitude et le refus de répondre sont pénalisés. Lorsqu’un système d’IA dit « je ne sais pas », il reçoit le même score que s’il fournissait une information complètement fausse. La stratégie optimale dans ce type d’évaluation devient alors évidente : toujours deviner.

Et les chercheurs le prouvent mathématiquement. Avec cette évaluation binaire, quelles que soient les chances qu’une réponse particulière soit correcte, le score attendu en se contentant de deviner dépasse toujours celui d’une IA qui s’abstient lorsqu’elle ne sait pas.

La solution qui ferait tout exploser

La solution proposée par OpenAI consiste à ce que l’IA évalue la confiance qu’il attribue à sa réponse avant de la fournir, et que les comparatifs l’évaluent en fonction de cela. L’IA pourrait alors recevoir une consigne, par exemple : « Réponds seulement si tu es confiant à plus de 75 %, puisque les erreurs sont pénalisées de 3 points tandis que les bonnes réponses rapportent 1 point. »

Le cadre mathématique adopté par les chercheurs d’OpenAI montre que, avec des seuils de confiance appropriés, les systèmes d’IA exprimeraient naturellement de l’incertitude plutôt que de deviner. Cela permettrait donc de réduire les hallucinations.

Le problème réside dans l’impact que cela aurait sur l’expérience utilisateur. Imaginez les conséquences si ChatGPT commençait à répondre « je ne sais pas » à 30 % des requêtes – une estimation plutôt prudente fondée sur l’analyse que fait l’article de l’incertitude factuelle dans les données d’entraînement. Les utilisateurs, habitués à recevoir des réponses assurées à presque toutes leurs questions, abandonneraient probablement rapidement un tel système.

J’ai déjà rencontré ce genre de problème dans un autre domaine de ma vie. Je participe à un projet de surveillance de la qualité de l’air à Salt Lake City, dans l’Utah. Lorsque le système signale des incertitudes concernant les mesures pendant des conditions météorologiques défavorables ou lors du calibrage de l’équipement, l’engagement des utilisateurs est moindre comparé aux affichages donnant des mesures sûres – même lorsque ces mesures « sûres » se révèlent inexactes lors de la validation.

La question économique liée au calcul

Il ne serait pas difficile de réduire les hallucinations en s’appuyant sur les conclusions de l’article. Des méthodes pour quantifier l’incertitude existent depuis des décennies et pourraient être utilisées pour fournir des estimations fiables de l’incertitude et guider une IA vers des choix plus judicieux. Mais même si l’on pouvait surmonter le problème de l’aversion des utilisateurs pour cette incertitude, un obstacle encore plus important se poserait : le coût des calculs. Les modèles de langage « conscients de l’incertitude » nécessitent beaucoup plus de puissance de calcul que les approches actuelles, car ils doivent évaluer plusieurs réponses possibles et estimer les niveaux de confiance. Pour un système traitant des millions de requêtes chaque jour, cela se traduit par des coûts opérationnels considérablement plus élevés.

Des approches plus sophistiquées, comme l’apprentissage actif, où les systèmes d’IA posent des questions de clarification pour réduire l’incertitude, peuvent améliorer la précision mais augmentent encore les besoins en calcul. Ces méthodes fonctionnent bien dans des domaines spécialisés comme la conception de puces, où des réponses erronées coûtent des millions de dollars et justifient un calcul intensif. Pour des applications grand public, où les utilisateurs attendent des réponses instantanées, l’aspect économique devient prohibitif.

La donne change radicalement pour les systèmes d’IA qui gèrent des opérations commerciales critiques ou des infrastructures économiques. Lorsque des agents d’IA prennent en charge la logistique de la chaîne d’approvisionnement, le trading financier ou le diagnostic médical, le coût des hallucinations dépasse largement celui de rendre les modèles capables de décider lorsqu’ils sont trop incertains. Dans ces domaines, les solutions proposées par l’article deviennent économiquement viables – et même nécessaires. Ces agents d’IA « incertains » coûteront simplement plus cher.

Une incitation structurelle à l’hallucination

Cependant, les applications grand public dominent toujours les priorités de développement de l’IA. Les utilisateurs veulent des systèmes qui fournissent des réponses assurées à n’importe quelle question. Les benchmarks d’évaluation récompensent les systèmes qui devinent plutôt que ceux qui expriment de l’incertitude. Les coûts de calcul favorisent les réponses rapides et confiantes plutôt que les réponses lentes et incertaines.

La baisse des coûts énergétiques par token et les avancées dans les architectures de puces pourraient éventuellement rendre plus abordable le fait que les IA décident si elles sont suffisamment sûres pour répondre à une question. Mais la quantité de calcul resterait relativement élevée, comparée à celle requise pour deviner aujourd’hui. En résumé, l’article d’OpenAI met involontairement en lumière une vérité inconfortable : les incitations économiques qui orientent le développement de l’IA grand public restent fondamentalement incompatibles avec la réduction des hallucinations. Tant que ces incitations ne changeront pas, les hallucinations persisteront.

The Conversation

Wei Xing ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d’une organisation qui pourrait tirer profit de cet article, et n’a déclaré aucune autre affiliation que son organisme de recherche.

ref. ChatGPT : la proposition d’OpenAI pour éviter les hallucinations pourrait tuer son propre chatbot – https://theconversation.com/chatgpt-la-proposition-dopenai-pour-eviter-les-hallucinations-pourrait-tuer-son-propre-chatbot-265886