IA et métacognition : savoir quand on peut faire confiance, ou non, à la machine n’est pas toujours évident

Source: The Conversation – France in French (2) – By Ikram Chraibi Kaadoud, Chercheuse XAI & sciences cognitives, Inria

Cet article est publié en collaboration avec Binaire, le blog pour comprendre les enjeux du numérique.

Un système d’IA doit toujours être supervisé par un humain, mais encore faut-il que cette personne soit en mesure de distinguer quand elle comprend ce que propose la machine et quand elle peut être influencée.

Les cadres contemporains de gouvernance de l’intelligence artificielle (IA) reposent sur un présupposé rarement rendu explicite : lorsqu’un opérateur humain reçoit l’output d’un système d’IA, il doit être en mesure de l’évaluer de manière significative. Les dispositions de l’AI Act européen relatives aux systèmes à haut risque exigent transparence, explicabilité et supervision humaine.

Sont explicitement visés les systèmes utilisés dans le recrutement et l’évaluation des travailleurs, l’accès aux prestations sociales, les décisions d’octroi de crédit, le contrôle aux frontières, l’administration de la justice, et les soins de santé critiques.

Le plan d’action des États-Unis sur l’IA appelle au maintien d’un contrôle humain significatif sur les décisions IA à conséquences importantes. Les principes de l’OCDE sur l’IA inscrivent le centrage sur l’humain au cœur de ses engagements.

Ces engagements sont nécessaires mais insuffisants. Ils portent sur ce que les systèmes d’IA doivent fournir aux opérateurs humains et laissent entièrement sans réponse la question de ce que ces derniers doivent être capables de faire pour agir sur ce qu’ils reçoivent. Cette lacune n’est pas accidentelle. C’est un angle mort structurel dans l’architecture actuelle de la gouvernance de l’IA.

Le modèle implicite du superviseur humain dans la plupart des textes réglementaires est celui d’un professionnel compétent et attentif qui, face à des outputs précis et lisibles, formule des jugements éclairés. C’est une hypothèse plausible dans des environnements stables, à faibles enjeux et bien maîtrisés, mais une hypothèse fragile dans des contextes à forts enjeux, soumis à la pression temporelle, et techniquement opaques – précisément les contextes dans lesquels les systèmes d’IA sont de plus en plus déployés.

Par exemple, l’infirmier aux urgences en charge du triage aux urgences qui reçoit un score de triage produit par un système IA ne dispose pas systématiquement des explications qui l’ont généré. Le conseiller bancaire qui doit décider en quelques minutes de bloquer un compte sur la base d’une alerte de fraude automatisée travaille potentiellement avec un modèle propriétaire qu’il ne peut pas interroger. L’agent administratif qui valide l’attribution d’un logement social ou d’une prestation algorithmiquement priorisée ne peut généralement pas expliquer pourquoi un dossier a été classé avant un autre. L’enseignant qui contresigne une notation automatisée d’examen n’a pas accès aux critères qui ont produit le score. Dans chacun de ces cas, la supervision humaine est formellement présente – et substantiellement impossible.

Des opérateurs métacognitivements avertis

La métacognition – la capacité à monitorer et réguler ses propres processus cognitifs – est le substrat psychologique d’une supervision efficace. Un opérateur métacognitivement averti sait quand il comprend quelque chose, quand il conjecture, et quand son jugement est façonné par des facteurs qu’il n’a pas consciemment enregistrés. Cette capacité ne peut pas être présumée ; elle varie significativement selon les individus, les formations et les pressions situationnelles.

La recherche en interaction humain-automatisme a documenté un ensemble de modes de défaillance qui émergent spécifiquement lorsque des humains supervisent des systèmes automatisés ou alimentés par l’IA. Le biais d’automatisation – la tendance à surpondérer les recommandations générées par la machine par rapport à son propre jugement – est l’un des résultats les plus robustes du domaine. Dans une étude fréquemment citée, les chercheurs Parasuraman et Riley ont montré en 1997 que les humains mésusent (c’est-à-dire font un mauvais usage ou utilisent de manière inadéquate ou inappropriée) systématiquement de l’automatisation en l’appliquant là où elle est peu fiable, et la délaissent là où elle serait bénéfique – deux types d’erreurs qui reflètent un défaut d’étalonnage métacognitif plutôt qu’un défaut de provision d’information. Par exemple, dans des expériences en simulateur de vol citées par ces auteurs, des pilotes équipés d’un système d’alerte automatique ont éteint un moteur en réponse à une fausse alerte – une décision qu’ils avaient eux-mêmes déclaré, avant l’expérience, ne jamais prendre sur la seule foi d’une alerte automatisée.

Le défi est aggravé par les caractéristiques propres aux systèmes d’IA contemporains. Les travaux de Kahneman sur une cognition à double processus – connu aussi sous le nom de Système 1/Système 2, les deux vitesses de pensées – éclairent ce mécanisme. Face à un système IA qui produit un output avec fluidité et assurance, l’esprit humain tend à activer un traitement rapide et intuitif (celui qu’on mobilise pour des tâches familières et peu risquées), plutôt que de réaliser une analyse profonde de la situation, plus longue, plus réfléchi, plus logique, et donc plus gourmande cognitivement.

Plus concrètement, une explication qui paraît plausible déclenche des réponses cognitives différentes d’une explication qui l’est vraiment. Lorsque les explications des systèmes d’IA sont synthétiquement fluides, numériquement précises et visuellement formatées comme des outputs faisant autorité, elles suppriment précisément le scepticisme que nécessite une supervision significative.

Peut-être de manière contre-intuitive, fournir davantage d’explications n’améliore pas de manière fiable le jugement humain des résultats d’IA. Une équipe de recherche, dans une étude expérimentale rigoureuse, a constaté que les explications produites par l’IA n’amélioraient pas systématiquement les performances de l’équipe humain-IA, et les dégradaient dans plusieurs conditions – notamment lorsque les explications étaient techniquement exactes mais cognitivement incompatibles avec la manière dont les opérateurs formaient leurs propres jugements.

Plus concrètement, sur la tâche d’analyse de sentiment, l’IA expliquait son jugement en surlignant les mots qu’elle avait identifiés comme positifs ou négatifs. Or les participants humains évaluaient le ton d’un texte de manière globale, en tenant compte du contexte et de la cohérence d’ensemble – un processus que la mise en évidence de mots individuels ne peut pas restituer. Ici, l’IA et l’humain n’arrivent pas à leur jugement par le même chemin : L’IA identifie des élements locaux (un mot, une phrase), là ou l’humain construit un jugement holiste (l’ensemble du texte, le contexte, la cohérence interne). Quand l’explication fournie reflète la logique de la machine plutôt que celle du raisonnement humain, elle ne donne pas à l’opérateur les outils pour évaluer si la recommandation est fiable – elle le convainc simplement de la suivre.

L’explicabilité est ainsi une condition nécessaire mais insuffisante d’une supervision efficace. Ce qui réduit l’écart entre les deux, c’est la maturité métacognitive.

Trois implications pour la gouvernance de l’IA

Si la maturité métacognitive est une propriété réelle et variable des opérateurs humains, alors les cadres de gouvernance qui imposent l’explicabilité sans s’intéresser à la métacognition des opérateurs sont tout simplement incomplets. Selon les travaux de la littérature scientifique – parmi lesquels ceux de l’IA explicable, de l’interaction humain-automatisme, des sciences cognitives, de la psychologie, des sciences humaines et sociales –, trois implications peuvent être énoncées :

La transparence centrée sur la documentation est insuffisante. Ce n’est pas une intuition : c’est ce que la recherche montre depuis trente ans. Ainsi, documenter et expliquer le comportement d’un système ne suffit pas à garantir de bonnes décisions humaines sans impliquer les individus dans les processus de conception de ces explications et de cette documentation et prendre en compte le contexte du besoin métier à l’instant t. Des études contrôlées ont même montré que « trop d’explications » peuvent dégrader la performance de l’équipe humain-IA en noyant l’information pertinente dans le bruit.
La qualification métacognitive des opérateurs devrait être considérée comme une composante de la gouvernance IA. Il s’agit ici d’un gap que la recherche a commencé à nommer, sans qu’aucun référentiel n’ait encore été formalisé.

Plus concrètement, les textes réglementaires comme l’AI Act exigent que les superviseurs humains soient « compétents », mais sans jamais définir ce que cela signifie – et en particulier, aucun référentiel n’évalue ce que les chercheurs appellent la compétence métacognitive, soit la capacité à détecter les défaillances de son propre raisonnement face à un système opaque, compétence qui relève de la formation et du contexte, pas de l’intelligence brute. Une précision importante s’impose ici. Parler de la qualification métacognitive des opérateurs ne revient pas à questionner la valeur ou l’intelligence des personnes qui supervisent des systèmes d’IA. Il ne s’agit pas non plus de classer les humains selon leur capacité à « bien penser ». La métacognition n’est ni un trait de personnalité ni un indicateur de valeur. C’est une compétence situationnelle, sensible au contexte, à la formation, à la charge cognitive et aux conditions de travail. Par exemple, un chirurgien expérimenté peut présenter un excellent étalonnage métacognitif dans son domaine et être tout aussi vulnérable au biais d’automatisation qu’un débutant face à un système d’IA opaque dans un contexte pour lequel il n’a reçu aucune formation spécifique.

Les compétences métacognitives – savoir ce qu’on comprend, détecter ses propres erreurs de raisonnement, réguler ses stratégies cognitives – varie selon les individus et n’est pas uniformément répartie au sein de la population, ce qui crée un risque structurel pour la sécurité. Il s’agit d’une hypothèse, formulée à partir de travaux menés en psychologie de l’éducation, qui n’a pas encore été étudiée dans le contexte de la gouvernance de l’IA. C’est peut-être le prochain axe de recherche que les gouvernements devraient activement encourager. En effet, si les organisations les mieux dotées en moyens matériels et en ressources humaines peuvent satisfaire aux exigences de supervision réelle, celles qui n’en n’ont pas – non pas parce que leurs personnels seraient moins capables, mais parce que les conditions permettant le développement de cette compétence situationnelle n’ont pas été réunies – produiront une conformité de façade, insuffisante, générant une fausse sécurité particulièrement dangereuse dans les domaines critiques.

Ikram Chraibi Kaadoud ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d’une organisation qui pourrait tirer profit de cet article, et n’a déclaré aucune autre affiliation que son organisme de recherche.

– ref. IA et métacognition : savoir quand on peut faire confiance, ou non, à la machine n’est pas toujours évident – https://theconversation.com/ia-et-metacognition-savoir-quand-on-peut-faire-confiance-ou-non-a-la-machine-nest-pas-toujours-evident-279348