Des manchots de l’Antarctique à l’explicabilité en IA. Bienvenue en prétopologie !

Source: The Conversation – in French – By Guillaume Guérard, Enseignant-chercheur, Intelligence Artificielle, ESILV, Pôle Léonard de Vinci

Il existe plusieurs espèces de pingouins en Antarctique. Une tâche standard est de classer les individus dans telle ou telle catégorie, tout en comprenant les raisons de ce classement. Arturo de Frias Marques, Wikipedia, CC BY-SA

La plupart des algorithmes performants actuels – notamment l’apprentissage profond (deep learning) et ses réseaux de neurones – fonctionnent comme des boîtes noires. On sait qu’ils donnent de bons résultats, mais impossible de comprendre leur logique interne. Ceci pose problème pour de nombreux domaines d’application (médecine, justice…), ce qui incite les régulateurs à exiger des systèmes « explicables ». Plusieurs pistes vers l’explicabilité existent. Zoom sur la « prétopologie ».

Imaginons un patient dont les résultats sanguins montrent un taux d’hémoglobine de 12,5 grammes par décilitres de sang. Un algorithme de détection précoce du cancer analyse ces chiffres, mais aussi ses antécédents familiaux (présents ou absents), son statut de fumeur (oui ou non), son niveau d’activité physique (faible, moyen, élevé). L’algorithme le classe dans un groupe à risque modéré. Mais quand son médecin lui demande pourquoi, le système ne peut pas répondre : c’est une boîte noire.

Et c’est évidemment un problème pour le patient, le médecin, l’assurance maladie, etc. C’est pour cela que l’AI Act européen, adopté en mars 2024, impose des obligations strictes aux organisations et entreprises opérant en Europe. D’ici 2026-2027, tous les systèmes d’IA dits à haut risque devront être « transparents » et « explicables », c’est-à-dire dont un humain puisse comprendre la logique. Les sanctions pourront atteindre 35 millions d’euros ou 7 % du chiffre d’affaires annuel mondial, car les domaines concernés peuvent avoir des effets importants.

Par exemple, en ressources humaines, les logiciels de tri de CV qui analysent à la fois des niveaux de diplômes, des années d’expérience et des compétences techniques doivent pouvoir justifier pourquoi un candidat est retenu et un autre écarté. Dans l’industrie énergétique, les systèmes de maintenance prédictive qui combinent données de capteurs (température, vibrations), historique de maintenance et type d’équipement doivent expliquer pourquoi une éolienne ou un autre équipement est signalé comme « à risque de panne ».

Pour contrer l’« effet boite noire » des systèmes d’IA actuels, nous proposons une méthode issue d’une discipline méconnue du grand public, la « pré-topologie », qui permet de rendre explicables les raisonnements faits sur des données mixtes (le taux d’hémoglobine est un chiffre tandis que la présence ou non d’antécédents familiaux ne se chiffre pas).

Qu’est-ce que la prétopologie ?

La prétopologie, c’est l’art de dessiner des « zones d’influence » autour de chaque personne ou objet dans un réseau – comme les cercles d’amis sur les réseaux sociaux, où l’influence n’est pas forcément réciproque.
Pour décrire une zone complexe, elle utilise une recette appelée forme normale disjonctive, qui assemble des blocs de base, puis calcule automatiquement tout ce qui « adhère » à cet assemblage, c’est-à-dire tout ce qui gravite naturellement autour de lui.

Les limites des méthodes actuelles pour rendre les systèmes d’IA « explicables »

Le clustering hiérarchique est aujourd’hui la méthode de référence pour regrouper automatiquement des observations similaires et donc pour rendre les données plus interprétables : en organisant les observations en une hiérarchie de groupes emboîtés (un dendrogramme), il permet à un expert de naviguer entre niveaux de granularité, d’identifier des profils types et d’expliquer pourquoi deux individus sont regroupés ensemble, sans avoir à ouvrir la “boîte noire” d’un modèle prédictif.

Son fonctionnement est simple et transparent. On mesure d’abord la distance entre chaque paire d’observations. Ensuite, on regroupe progressivement les observations les plus proches. Enfin, on obtient un arbre (appelé dendrogramme) qu’on peut couper à différents niveaux pour former des groupes.

Prenons l’exemple des manchots de l’archipel Palmer en Antarctique. Si on mesure la longueur de leur bec et leur masse corporelle, le clustering hiérarchique identifie automatiquement trois groupes qui correspondent aux trois espèces biologiques présentes : Adélie, Jugulaire et Papou. L’atout majeur est sa transparence : on visualise l’arbre, on suit les regroupements successifs, on comprend facilement comment les groupes se sont formés, la hauteur d’embranchement donne une idée de la « différence » entre deux groupes.

Le défi survient quand on mélange chiffres et catégories. Mesurer une distance entre deux chiffres est facile : si un patient a une glycémie de 5,5 millimoles par litres (une unité de concentration) et un autre de 6,2 millimoles par litres, la différence est de 0,7. Mais comment mesurer la distance entre deux « catégories » que l’on ne peut pas chiffrer, comme une réponse oui ou non (fumeur ou non-fumeur), ou encore la couleur d’un tissu biologique ?

Par exemple, dans notre exemple de détection précoce du cancer, si le patient A présente une concentration d’hémoglobine de 12,5 grammes par décilitres (chiffre), des antécédents familiaux (catégorie « oui ») et ne fume pas (catégorie « non ») ; tandis que le patient B présente une concentration d’hémoglobine de 13,1 grammes par décilitres, pas d’antécédents et fume… comment dire si ces deux patients sont « proches » ou « éloignés », en termes de risques ?

Les solutions existantes, comme le k-means, HDBSCAN et DIANA ont toutes des limites. Transformer les catégories en chiffres artificiels (« oui » = 1, « non » = 0) est arbitraire et fait perdre du sens. Plus précisément, ceci signifie que l’on introduit une relation d’ordre et une distance qui n’existent pas : coder « chat » = 1, « chien » = 2, « oiseau » = 3 suggère implicitement que chien est « entre » chat et oiseau, ou que la distance chat-chien est égale à chien-oiseau, ce qui peut biaiser tous les calculs de similarité en aval.

Ignorer les catégories pour ne garder que les chiffres, comme dans les méthodes citées précédemment, fait perdre des informations cruciales comme les antécédents familiaux. Les méthodes statistiques plus complexes sont souvent opaques ou nécessitent des hypothèses fortes sur la structure des données. C’est le cas de la distance de Gower ou de l’analyse des facteurs latents – le genre de structure qui peut se cacher derrière les grands modèles de langage (LLM).

C’est précisément dans la définition de ces voisinages – comment mesurer qu’un patient « ressemble » à un groupe malgré des données hétérogènes – que la prétopologie offre un cadre naturel : elle permet de construire des zones d’influence flexibles, sans imposer de distance artificielle ni d’hypothèses sur la structure des données.

Une solution en développement : mesurer la similarité autrement

Pour cela, au lieu de chercher à mesurer des distances, nous proposons de changer de perspective en définissant des « voisinages », construits via des formes normales disjonctives, ou DNF. Derrière ce nom se cachent des règles logiques simples du type : « Un patient appartient au voisinage d’un groupe si (il est diabétique ET âgé de plus de 60 ans) OU (il a des antécédents familiaux ET est hypertendu) ». Chaque condition entre parenthèses est un bloc ; le voisinage est l’union de ces blocs. Pas de chiffres, pas de distance : seulement des combinaisons de caractéristiques, comme des règles de décision lisibles.

Une fois les voisinages définis, on calcule pour chaque groupe l’ensemble de tous les patients qui lui « adhèrent » – c’est-à-dire qui tombent dans au moins un de ces blocs DNF. Ce calcul d’adhérence est itératif : à chaque étape, des patients rejoignent ou quittent un groupe, jusqu’à stabilisation. Le résultat est analogue à un dendrogramme : on obtient une hiérarchie de regroupements successifs, du plus local (blocs fins, peu de patients) au plus global (grands groupes stables), sans avoir jamais posé de distance artificielle entre catégories et chiffres.

Une analogie aide à comprendre. Sur une carte géographique, on mesure la distance entre Paris et Lyon en kilomètres. Mais on peut aussi dire que Dijon est voisine de Lyon parce qu’elles partagent des caractéristiques : région similaire, climat comparable, économie proche. Cette notion de « voisinage » par caractéristiques communes ne nécessite pas de calculer une distance précise.

Notre algorithme en accès libre pour des études pilotes

C’est le principe de base de PretopoMD, notre algorithme qui classe automatiquement des données mixtes (chiffres et catégories) tout en rendant explicite sa logique de regroupement. Pour les chiffres, deux valeurs sont voisines si elles tombent dans la même fenêtre : toutes les glycémies entre 5 et 7 mmol/L sont voisines. Pour les catégories, deux observations sont voisines si elles partagent la même modalité : deux patients sont voisins s’ils sont tous deux fumeurs, ou si tous deux ont des antécédents familiaux.

PretopoMD est d’ores et déjà disponible en accès libre pour permettre à des équipes en santé, RH ou maintenance de l’utiliser pour des études pilotes. À moyen terme, nous espérons que cette approche puisse aider les organisations européennes à répondre aux exigences de l’AI Act en proposant des classifications explicables par construction.

L’avantage clé est la traçabilité. Pour notre exemple médical, on peut dire :

« Les patients A et C sont dans le même groupe parce qu’ils partagent une glycémie dans la fenêtre 5-7 millimoles par litres (étape 1), tous deux ont des antécédents familiaux (étape 1), et tous deux ont un IMC entre 25-30 (étape 2). Le patient B les rejoint à l’étape 3 via un IMC similaire, malgré l’absence d’antécédents. »

Cette explication pas-à-pas répond directement aux exigences de l’AI Act. De plus, la structure hiérarchique est préservée, on peut identifier grands groupes et sous-groupes pertinents.

Néanmoins, notre algorithme possède des limites, puisqu’il faut choisir la taille des fenêtres et les seuils de similarité, faisant actuellement appel à un expert métier. Nous travaillons sur des méthodes pour automatiser ces choix.

Ainsi, la question reste ouverte : jusqu’où peut-on pousser la performance tout en conservant l’explicabilité ? Dans des domaines sensibles comme la santé ou le droit, ce compromis est-il acceptable ? Notre travail montre qu’on peut au moins explorer cette voie.

Guillaume Guérard ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d’une organisation qui pourrait tirer profit de cet article, et n’a déclaré aucune autre affiliation que son organisme de recherche.

– ref. Des manchots de l’Antarctique à l’explicabilité en IA. Bienvenue en prétopologie ! – https://theconversation.com/des-manchots-de-lantarctique-a-lexplicabilite-en-ia-bienvenue-en-pretopologie-278007