Recourir à une IA quand on n’est pas médecin n’aide pas à poser un meilleur diagnostic

Source: The Conversation – France in French (3) – By Rebecca Payne, Clinical Senior Lecturer, Bangor University; University of Oxford

De plus en plus de gens consultent les agents conversationnels dopés à l’intelligence artificielle pour répondre aux questions du quotidien. Ces nouveaux outils sont également sollicités pour fournir des informations en lien avec la santé. Pourtant, ils sont encore très loin de pouvoir remplacer les médecins, comme le révèle une nouvelle étude.

Désormais, pour obtenir des conseils sur des sujets aussi variés que la cuisine ou la façon de remplir leur déclaration d’impôts, des millions de personnes se tournent vers des agents conversationnels (chatbots, en anglais) basés sur l’intelligence artificielle (IA). Un nombre croissant d’individus leur pose également des questions concernant leur santé. Or, comme le rappelait récemment le médecin-chef du Royaume-Uni, lorsqu’il s’agit de prendre des décisions médicales, une telle démarche peut s’avérer risquée.

Dans une étude récente, mes collègues et moi-même avons évalué dans quelle mesure les chatbots reposant sur des grands modèles de langage (LLM) sont réellement capables d’aider le grand public à faire face à certains problèmes de santé courants. Nos résultats, frappants, démontrent que les chatbots que nous avons testés ne sont pas encore en mesure d’endosser le rôle de médecin.

Utiliser un chatbot ne permet pas de prendre de meilleures décisions en matière de santé

Avant tout, soulignons qu’une objection fréquente face à des recherches telles que celles que nous avons menées est d’affirmer que l’IA évolue plus vite que le cycle de publication académique : au moment où un article paraît, les modèles étudiés ont souvent déjà été mis à jour, rendant ses conclusions obsolètes. Pourtant, des études menées dans le contexte du triage médical (processus visant à déterminer à la phase initiale de la prise en charge d’un patient, la filière adaptée à son état en matière de délai et de type de soins, ndlr) et portant sur des versions plus récentes de ces systèmes suggèrent que les mêmes problèmes persistent.

Nos travaux ont consisté à soumettre à des participants de brèves descriptions de situations médicales courantes. Les volontaires ont été répartis de manière aléatoire en deux groupes. Les membres du premier groupe devaient interagir avec l’un des trois chatbots que nous avions sélectionnés (des chatbots courants, facilement accessibles pour le grand public), tandis que ceux de l’autre groupe pouvaient recourir aux sources qu’ils avaient l’habitude de consulter ordinairement, chez eux. À l’issue de l’interaction, nous leur posions deux questions : quelle affection était la plus compatible avec les symptômes décrits ? Et, en conséquence, vers quelle structure de soins valait-il mieux se tourner ?

Les utilisateurs de chatbots se sont révélés moins aptes à identifier la bonne affection que ceux qui n’en avaient pas utilisé. Ils ne se montraient pas non plus meilleurs que le groupe témoin pour déterminer la bonne modalité de recours aux soins. En d’autres termes, interagir avec un chatbot n’a pas permis aux participants de prendre de meilleures décisions en matière de santé.

Des connaissances solides, mais des résultats décevants

Ces résultats ne signifient pas que les connaissances médicales des modèles de chatbots testés sont lacunaires : les LLM sont, en effet, capables de passer facilement des examens de certification médicale. D’ailleurs, une fois que nous avons mis de côté l’élément humain, en soumettant directement les mêmes scénarios aux chatbots, leurs performances se sont sensiblement améliorées.

Sans intermédiaire humain, les modèles ont identifié les affections pertinentes dans la grande majorité des cas et suggéré le plus souvent des modalités de recours aux soins appropriées.

Pourquoi, alors, les résultats se dégradent-ils dès lors que des utilisateurs réels entrent en jeu ? L’analyse des échanges a mis en lumière plusieurs écueils. Il arrivait fréquemment que les chatbots mentionnent la bonne hypothèse diagnostique au fil de la conversation, sans que les participants ne la retiennent ou ne la restituent dans leur réponse finale.

Dans d’autres cas, les utilisateurs transmettaient des informations parcellaires, ou bien le chatbot interprétait mal des détails essentiels. L’échec ne relevait donc pas d’un simple manque de connaissances médicales. Il tenait à un problème de communication entre l’être humain et la machine.

Ne pas confondre la théorie et la pratique

Cette étude démontre qu’avant de déployer de nouvelles technologies dans des environnements où les enjeux sont importants, les décideurs politiques doivent impérativement avoir des données collectées « en condition réelles » pour estimer les véritables performances des outils concernés. C’est évidemment le cas dans le secteur de la santé.

Nos résultats mettent en évidence que bon nombre des évaluations actuellement menées pour déterminer l’intérêt de l’IA en médecine présentent d’importantes lacunes. En effet, les modèles de langage obtiennent souvent d’excellents résultats lorsqu’il s’agit de répondre à des questions d’examen structurées, ou durant des interactions simulées entre différents modèles.

Mais l’usage réel de ces outils est bien plus complexe que cela. Dans la réalité, les patients décrivent leurs symptômes de façon vague ou incomplète. Ils peuvent aussi mal comprendre les explications qui leur sont données, ou poser leurs questions selon un ordre imprévisible. Un système dont les résultats lors des tests d’évaluations s’avèrent impressionnants peut se comporter très différemment une fois confronté à de véritables utilisateurs.

Cette étude souligne également un point fondamental sur la nature même de la pratique clinique. En tant que médecin généraliste, mon travail ne se limite pas à mobiliser des faits mémorisés antérieurement. La médecine est souvent décrite comme un art autant qu’une science. Une consultation n’a pas pour seul objet d’établir le bon diagnostic : elle consiste à interpréter le récit du patient, à sonder l’incertitude et à prendre des décisions qui sont le résultat d’une négociation.

Cette complexité du colloque singulier entre le médecin et son patient est depuis longtemps reconnu par les enseignants en médecine. Pendant des décennies, les futurs médecins ont été formés selon le modèle de Calgary-Cambridge. Celui-ci implique d’instaurer une relation de confiance avec le patient, de recueillir les informations en le questionnant et en l’écoutant avec la plus grande attention, de comprendre ses préoccupations et ses attentes, de lui expliquer clairement les conclusions et de s’accorder avec lui sur un plan de prise en charge.

Ces processus reposent sur l’établissement d’une connexion humaine, rendue possible grâce à une communication sur mesure, faite d’exploration précautionneuse, afin d’aboutir à l’établissement d’un jugement façonné par le contexte et la confiance. Toutes ces qualités ne peuvent pas être facilement appréhendées par des techniques de reconnaissance de formes (techniques à la base des modèles d’IA, qui permettent à l’ordinateur de détecter, à partir de données brutes ou prétraitées, la présence de formes ou de régularités, ndlr)

Les chatbots IA, des assistants plus que des médecins

Nos travaux ne démontrent pas que l’IA n’a pas sa place dans le secteur de la santé – loin de là. La leçon à retenir est qu’il est crucial de comprendre ce que ces systèmes savent faire à l’heure actuelle, et où se situent leurs limites.

Les chatbots actuels doivent être davantage considérés comme des assistants que comme des médecins. Ils excellent dans l’organisation de l’information, la synthèse de textes et la structuration de documents complexes. Des tâches qui sont précisément celles pour lesquelles les modèles de langage s’avèrent déjà utiles au sein des systèmes de santé, qu’il s’agisse de rédiger des comptes rendus cliniques, de synthétiser des dossiers médicaux ou de générer des lettres d’adressage, par exemple.

Les promesses de l’IA en médecine demeurent réelles, mais à court terme, son rôle sera vraisemblablement plus un rôle de soutien qu’une véritable révolution. On ne peut pas attendre des chatbots qu’ils soient la porte d’entrée dans le système de soins. Ils ne sont pas encore en mesure de poser des diagnostics ni d’orienter les patients vers les prises en charge pertinentes.

Certes, l’IA est déjà capable de réussir des examens de médecine. Mais de même que réussir un examen du Code de la route ne fait pas de vous un conducteur compétent, exercer la médecine ne se limite pas à répondre correctement à des questions.

Retrouver son chemin au cœur de la complexité qui se dissimule derrière chaque rencontre clinique requiert de savoir faire preuve d’empathie et de discernement. Cela reste encore l’apanage des humains. Pour l’heure, du moins.

Rebecca Payne travaille sur le projet REMEDY, financé par Health and Care Research Wales, et bénéficie également d’une bourse Clarendon-Reuben de l’université d’Oxford. Elle est membre du Royal College of General Practitioners et membre senior de la Faculty of Medical Leadership and Management.

– ref. Recourir à une IA quand on n’est pas médecin n’aide pas à poser un meilleur diagnostic – https://theconversation.com/recourir-a-une-ia-quand-on-nest-pas-medecin-naide-pas-a-poser-un-meilleur-diagnostic-280196