ChatGPT Santé se veut une aide pour les médecins et les patients. Est-ce fiable ? Quels risques pour la confidentialité et le secret médical ?

Source: The Conversation – France in French (2) – By Nesrine Kaaniche, Associate professor, Télécom SudParis – Institut Mines-Télécom

En janvier 2026, OpenAI a lancé, aux États-Unis, ChatGPT Santé. Ce logiciel est principalement destiné aux patients pour les aider à mieux comprendre et à gérer leurs informations de santé. Il peut aussi être utilisé par les médecins afin de faciliter l’accès aux données médicales et d’améliorer le suivi des patients.

Avec une telle utilisation par les médecins et les patients, la protection des patients – que ce soit leur santé ou leurs données – et la préservation du secret médical dépendent des barrières techniques mises en place.

En pratique, ChatGPT Santé permet d’interpréter des résultats d’analyses, de suivre l’évolution de certains indicateurs, de préparer des rendez-vous médicaux ou encore d’obtenir des explications personnalisées à partir de données de santé.

Pour les patients, c’est un outil d’assistance informationnelle visant à les accompagner dans leur parcours de soins, sans se substituer aux professionnels de santé. Pour ces professionnels, ChatGPT peut servir d’aide au diagnostic.

Dans les deux cas, sa légitimité dépend d’un équilibre délicat : il s’agit de transformer des dossiers médicaux éparpillés en une aide au diagnostic fiable, tout en protégeant la vie privée des patients.

En effet, les données de santé, considérées comme sensibles, sont soumises à des réglementations bien précises. Leur confidentialité est essentielle pour garantir le respect du secret médical et limiter les risques d’utilisation abusive. En effet, un accès non consenti par des assureurs ou des banques pourrait entraîner des refus de couverture, des hausses de primes ou des refus de crédit fondés sur l’état de santé d’un individu.

Pour pouvoir garantir la confidentialité des données de santé transmises et traitées par ChatGPT Santé (ou d’autres systèmes équivalents), il faut résoudre des défis techniques majeurs : sécuriser les flux de données, garantir l’anonymisation dans un environnement massivement interconnecté, à la fois lors de la collecte de données, de l’entraînement du modèle et de son utilisation.

Fiabilité algorithmique et risque d’hallucination clinique

En tout premier lieu, la protection du patient repose sur la justesse des informations fournies par l’IA aux utilisateurs, patients comme médecins.

Le phénomène d’hallucination, inhérent aux architectures de type Large Language Model (LLM), prend une dimension critique en milieu clinique : une erreur de conversion d’unité ou une confusion posologique (par exemple, 5 milligrammes contre 50 milligrammes) peut engager le pronostic vital.

Pour neutraliser ce biais, OpenAI déploie des « mécanismes d’ancrage » (grounding) par l’intermédiaire de référentiels tels que HealthBench, un benchmark de 150 000 ressources validées par des pairs. Ce processus transforme l’IA en un moteur de synthèse documentaire où chaque affirmation est corrélée à une source vérifiable (DOI d’études, portails hospitaliers), ce qui permet aux patients de mieux comprendre les résultats de leurs analyses avec un jargon moins technique.

Pour les professionnels de santé, cet ancrage rend l’outil plus fiable, car il repose dès lors sur le concept de garantie humaine : l’interface ne se substitue jamais au décideur final (le médecin, quand il s’agit de poser un diagnostic), mais agit comme un médiateur d’informations dont la traçabilité permet au praticien de valider systématiquement la suggestion du modèle.

Sécuriser les flux de communication

L’architecture de ChatGPT Santé repose sur une organisation claire des différents éléments : les phases de calcul (à distance ou en local) afin de permettre la collecte des données, l’entraînement du modèle et son utilisation ; mais aussi les flux d’information entre différents terminaux (smartphones, laboratoires d’analyses, hôpitaux, data centers, etc.).

La circulation des données est gérée par la plateforme B.Well Connected Health. Cette infrastructure agit comme une interface consacrée au domaine médical, permettant de faire communiquer entre elles différentes sources de données même si elles sont très différentes.

Elle permet ainsi d’harmoniser des données variées, comme celles issues d’applications personnelles (Apple Health, MyFitnessPal) ou celles provenant des dossiers médicaux hospitaliers. En vérifiant que chaque donnée correspond bien au bon patient, et en garantissant que les données respectent les normes et règles en vigueur, la plateforme assure un flux de données déterministe ou associé à un seul utilisateur pour la phase d’inférence du LLM (c’est-à-dire son utilisation grâce à des prompts). L’ensemble de cette chaîne de traitement s’opère dans un environnement maintenu en isolation totale vis-à-vis du réseau public.

Contrairement à l’interface standard de ChatGPT, les informations cliniques des patients sont exclues du processus d’entraînement global du modèle de langage : elles ne modifient jamais les poids synaptiques du réseau de neurones global de ChatGPT. Ces données personnelles sont stockées uniquement dans un espace de recherche spécifique à chaque utilisateur, ce qui garantit que les informations sensibles restent séparées du modèle et de son évolution ultérieure.

De plus, l’architecture de ChatGPT Santé s’appuie sur la méthode RAG (Retrieval-Augmented Generation) : au lieu de mémoriser l’historique médical, le modèle consulte, lors de chaque requête, une base de données privée et isolée. Contrairement à une mémorisation classique, où un modèle pourrait intégrer et retenir directement des informations sensibles dans ses paramètres, ce mécanisme limite le risque que ces données soient apprises ou réutilisées involontairement par le modèle.

Cependant, ces vecteurs restent temporairement stockés sur les serveurs d’OpenAI, notamment pour des raisons de modération, jusqu’à trente jours. Cette conservation, même limitée, représente un point de vulnérabilité potentiel, car elle expose les données à un risque résiduel d’accès non autorisé.

Anonymiser les données pour éviter l’identification des patients

La protection des données dans ChatGPT Santé doit garantir que la nature des informations traitées ne permette pas l’identification du patient.

La première technique de « dés-identification » mise en place par OpenAI est bien sûr de retirer les identifiants directs, par exemple les noms de patients. Mais ceci n’élimine pas le risque de réidentification par corrélation de métadonnées, rendant l’anonymat vulnérable. En effet, une récente étude a démontré que le croisement de seulement trois points de données (une pathologie rare, une géolocalisation précise et un historique de fréquence cardiaque issu d’un wearable) permet une réidentification dans plus de 80 % des cas. Par sa capacité de corrélation, l’IA peut en effet lier des informations anonymes pour isoler un profil unique.

Pour neutraliser ce risque, ChatGPT Santé pourrait se reposer sur la « confidentialité différentielle », qui consiste à ajouter une petite perturbation aléatoire aux données afin qu’aucune analyse ne puisse être rattachée avec certitude à un individu.

L’efficacité du système dépend de la gestion de ce compromis entre bruit et confidentialité : un niveau de confidentialité trop élevé sacrifie l’utilité clinique des informations (qui sont trop bruitées pour être utiles), alors qu’un bruit insuffisant fragilise le secret médical face à la puissance d’analyse croisée des systèmes d’IA.

Garder les données confidentielles lors de la phase d’utilisation du LLM

Si ChatGPT Santé s’appuie sur un chiffrement de bout en bout pour sécuriser les flux de communication, le véritable défi réside dans la protection des données en cours d’utilisation, lors de la phase dite d’« inférence ».

En effet, l’architecture des modèles de type transformer impose à ce jour au système de déchiffrer l’information pour opérer ses calculs d’inférence. Cela implique que, même de manière fugitive, les données de santé résident en clair dans la mémoire vive (RAM) des serveurs de calcul, constituant un point de vulnérabilité face à des vecteurs d’attaque de type « extraction de mémoire ».

L’avenir de la confidentialité des données de santé repose sur des techniques de chiffrement avancées, notamment le chiffrement homomorphe. Cette approche permet d’effectuer des calculs directement sur des données chiffrées, sans avoir besoin de les déchiffrer au préalable. Autrement dit, il est possible de traiter les données tout en les gardant protégées, ce qui garantit que leur contenu reste inaccessible, même pendant leur utilisation.

Pour l’instant, OpenAI adopte une approche hybride : l’utilisation de serveurs spécifiques sur Microsoft Azure doit permettre de garder les données séparées des données des autres utilisateurs (ou celles d’autres applications que ChatGPT Santé). Cette organisation crée un environnement proche d’un système interne (également appelé « sur site »), même s’il repose sur le cloud. Elle permet de mieux protéger les échanges de données, mais n’élimine pas totalement les risques d’exposition temporaire lors de leur traitement.

Le conflit de souveraineté : les données françaises face aux lois états-uniennes

Enfin, le déploiement de ChatGPT Santé en Europe poserait un défi de souveraineté majeur.

En effet, en France, la législation impose l’hébergement des données cliniques chez des prestataires certifiés « Hébergeurs de données de santé ». Bien que Microsoft Azure dispose de centres de données certifiés en France (France Central), le calcul intensif requis par l’IA nécessite des processeurs ultrapuissants qui consomment énormément d’énergie. Pour des raisons de disponibilité électrique, ces moteurs de calcul sont souvent situés dans des fermes de serveurs hors de l’Union européenne.

Or, ce déport de la donnée vers des serveurs états-uniens déclenche l’application du Cloud Act, une loi qui permet aux autorités des États-Unis d’exiger l’accès aux informations gérées par une entreprise états-unienne, indépendamment de leur lieu de stockage physique.

Ce cadre entre en collision directe avec le règlement général sur la protection des données (RGPD) européen, créant un conflit de lois où la protection européenne s’effacerait devant les prérogatives de sécurité américaines.

Nesrine Kaaniche ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d’une organisation qui pourrait tirer profit de cet article, et n’a déclaré aucune autre affiliation que son organisme de recherche.

– ref. ChatGPT Santé se veut une aide pour les médecins et les patients. Est-ce fiable ? Quels risques pour la confidentialité et le secret médical ? – https://theconversation.com/chatgpt-sante-se-veut-une-aide-pour-les-medecins-et-les-patients-est-ce-fiable-quels-risques-pour-la-confidentialite-et-le-secret-medical-281082