L’oubli catastrophique, ou pourquoi les IA ne savent pas encore apprendre en continu

Source: The Conversation – in French – By Eric Moulines, Professeur en apprentissage statistique et traitement du signal, EPITA; Académie des sciences

Un modèle d’IA peut être très performant dans un cadre contrôlé, mais se dégrader lorsque les données qu’il reçoit en conditions réelles ne ressemblent plus exactement aux données sur lesquelles il a été conçu, validé ou récemment mis à jour.

Ainsi, lorsque la mise à jour du modèle est faite naïvement, on peut être confronté au problème de l’« oubli catastrophique » : le modèle a progressé sur les données récentes, mais perd brutalement en performance sur les données plus anciennes. Ce sont précisément ces difficultés qui motivent le développement de l’« apprentissage continu ».

Dans l’apprentissage automatique « classique », on entraîne un réseau de neurones sur un très grand ensemble de données, puis on l’utilise tel quel. Mais ce cadre devient insuffisant lorsque les données arrivent au fil du temps, par exemple dans le cas de données météo, à l’arrivée de nouveaux patients dont la démographie ou la génération évolue, ou encore avec de nouvelles pratiques professionnelles.

Un système de Google Health destiné à automatiser le dépistage de la rétinopathie diabétique (l’ensemble des maladies de la rétine dues à la détérioration des vaisseaux rétiniens par le diabète) était prometteur lors d’évaluations contrôlées. En clinique, en revanche, il a rencontré des difficultés : sur 1 838 images traitées pendant les six premiers mois d’usage dans onze cliniques en Thaïlande, 393 (21 %) n’atteignaient pas le seuil de qualité requis.

Cet exemple ne signifie pas que la rétinopathie diabétique aurait changé en quelques mois. Il montre plutôt que les données vues par le système en clinique peuvent différer fortement de celles utilisées lors de son développement : qualité variable des images, différences de caméras, luminosité, reflets, patients plus difficiles à photographier, contraintes de temps et organisation du dépistage.

Autrement dit, la distribution des données change lorsque l’on passe d’un cadre contrôlé à un environnement réel. C’est précisément ce type de décalage qui rend insuffisant un modèle figé et qui pose la question suivante : comment adapter le modèle à ces nouvelles conditions sans perdre ce qu’il savait déjà faire ?

Les méthodes les plus simples conceptuellement, par exemple un réentraînement complet sur toutes les données, incluant les nouvelles, exigent beaucoup de calculs et sont donc peu réalistes.

Le continual learning, ou apprentissage continu, vise justement à faire évoluer le modèle au rythme du flux de données : s’adapter, intégrer de l’information nouvelle et apprendre des tâches successives, sans repartir systématiquement de zéro. Il se distingue d’un simple réentraînement périodique par une contrainte essentielle : apprendre le nouveau sans détruire l’ancien.

Au fond, l’apprentissage continu cherche un compromis entre deux exigences opposées] : la plasticité, nécessaire pour apprendre du nouveau, et la stabilité, indispensable pour ne pas effacer l’ancien.

Pourquoi les modèles d’IA oublient-ils ?

La difficulté vient du fait qu’un réseau de neurones n’a pas une mémoire rangée en dossiers indépendants. Les mêmes paramètres – les mêmes neurones et les mêmes connexions – servent souvent à plusieurs tâches.

Si les tâches se ressemblent, cette mutualisation est utile : le modèle peut réutiliser des représentations déjà apprises. Mais si les tâches diffèrent, les mises à jour nécessaires à la nouvelle tâche entrent en concurrence avec ce qui faisait la réussite des anciennes.

Prenons un exemple simple. Un modèle industriel a appris à détecter des défauts sur des pièces métalliques à partir d’images prises avec une première caméra. Plus tard, l’usine remplace la caméra : la résolution, la luminosité et les reflets changent. Si l’on réentraîne le modèle uniquement avec les nouvelles images, il peut s’adapter au nouveau capteur, mais perdre en performance sur les images produites par l’ancien système. Ce n’est pas parce que les anciens défauts ont disparu ; c’est parce que les paramètres qui les reconnaissaient ont été modifiés pour résoudre le nouveau problème.

En production, les incidents publiés sont plus souvent décrits comme des « décalages de données » que comme de l’oubli catastrophique. Les deux problèmes restent liés : dès qu’un modèle est mis à jour avec des données récentes, il faut éviter d’effacer des compétences antérieures.

Une étude récente menée sur des modèles d’IA utilisés à l’hôpital illustre bien cette difficulté. Les chercheurs ont supervisé un système chargé d’estimer le risque de décès de patients hospitalisés. Avec le temps, les dossiers reçus par ce système ont changé : les patients n’étaient plus exactement les mêmes, certaines mesures médicales variaient, et les pratiques hospitalières ont été bouleversées, en particulier pendant le Covid-19.

Le problème n’est donc pas qu’un dossier isolé serait anormal. C’est l’ensemble des données qui se transforme peu à peu. Pour rester utile, le modèle doit alors être mis à jour avec des exemples plus récents. Dans l’étude, cette mise à jour permettait effectivement de meilleurs résultats qu’un modèle laissé tel quel. Mais il y a un risque : si on laisse le système « apprendre » trop sur les données récentes, le modèle peut se spécialiser et devenir très bon sur les cas nouveaux, tout en perdant une partie de ses capacités sur les cas plus anciens. Il s’adapte au présent, mais au prix d’un oubli du passé. C’est ce qu’on appelle l’« oubli catastrophique ».

Pour intégrer des informations nouvelles sans sacrifier ce qui a déjà été appris, plusieurs grandes familles de méthodes existent : rejouer une partie du passé, protéger certains paramètres, modifier l’architecture du modèle ou apprendre des représentations plus stables.

Garder en mémoire des exemples représentatifs

La première, assez intuitive, consiste à rejouer le passé. C’est le « replay » : on conserve une petite mémoire d’exemples représentatifs des tâches antérieures et l’on entraîne le modèle sur un mélange « nouvelles données + mémoire ». C’est une forme de révision : le modèle ne relit pas tout le manuel, mais revoit quelques pages bien choisies.

Dans un système de reconnaissance d’images qui apprend progressivement de nouvelles catégories, on peut garder quelques images typiques de chaque ancienne classe, mais aussi des cas ambigus proches des frontières entre classes. Des méthodes comme iCaRL ont popularisé cette idée : apprendre de nouvelles classes tout en gardant un petit ensemble d’exemples représentatifs des anciennes.

Lorsque stocker des données réelles est difficile – pour des raisons de confidentialité, de coût ou de stockage – on peut recourir à un modèle génératif. Entraîné sur le passé, ce modèle produit des exemples artificiels des anciennes tâches, qui jouent le rôle de « souvenirs » synthétiques. Cette stratégie, appelée generative replay, peut réduire le besoin de conserver les données originales.

Mais ces données synthétiques ne sont pas automatiquement équivalentes aux données initiales. Elles peuvent manquer de diversité, négliger les cas rares, amplifier certains biais ou produire des exemples plausibles mais trompeurs. Il faut donc les valider : vérifier qu’elles couvrent les anciennes classes, préservent les cas difficiles et maintiennent les performances sur des jeux de test indépendants.

Les travaux récents sur l’entraînement répété à partir de données synthétiques montrent aussi un risque d’« effondrement » du modèle : à force d’apprendre sur des données synthétiques, il peut perdre des informations sur la vraie distribution, surtout sur ses parties « rares ».

Toute la question est donc de décider quoi conserver (ou générer) lorsque l’on a un budget restreint : des exemples typiques, rares, difficiles, ou un mélange des trois.

Protéger certains paramètres du modèle

Une deuxième famille de méthodes vise non pas à conserver des exemples, mais à protéger certaines parties du modèle. L’idée est d’identifier les poids déterminants pour les tâches passées, puis d’ajouter une pénalité lorsqu’ils changent trop pendant l’apprentissage d’une nouvelle tâche. Le modèle peut continuer à apprendre, mais il paie un « coût » plus élevé lorsqu’il modifie des paramètres jugés importants pour ses compétences anciennes.

C’est le principe de méthodes comme Elastic Weight Consolidation : ralentir l’apprentissage sur les poids importants pour les tâches déjà vues, afin de réduire l’oubli.

Une approche voisine, mais différente, consiste à préserver le comportement de l’ancien modèle plutôt que ses poids. On ajoute alors un terme de coût qui encourage le modèle mis à jour à produire des sorties proches de celles de l’ancien modèle sur des données de référence. C’est le principe de la « distillation » : l’ancien modèle joue le rôle de professeur, et le nouveau apprend la nouvelle tâche sans trop s’éloigner des réponses du professeur. La méthode Learning without Forgetting repose sur cette logique, même lorsque les données initiales ne sont plus disponibles.

La différence est donc la suivante : la régularisation des poids demande de « ne pas trop déplacer ces réglages internes », tandis que la distillation demande de « garder un comportement proche de l’ancien modèle ». Dans les deux cas, on peut parfois limiter l’oubli sans stocker toutes les données passées.

Leur limite est le compromis imposé : si l’on protège trop le modèle, il devient moins plastique et apprend moins bien la nouvelle tâche. Dans l’exemple du changement de caméra, protéger les anciens paramètres peut aider à reconnaître les défauts déjà connus, mais une protection trop forte empêchera le modèle de s’adapter à la nouvelle luminosité ou à la nouvelle résolution.

Superposer à l’ancien modèle de nouvelles couches de neurones qui apprennent des nouvelles données

Une troisième stratégie consiste à éviter de faire tenir tous les apprentissages dans les mêmes paramètres. Plutôt que de modifier sans cesse le même réseau, on peut réserver des « espaces » distincts à différentes tâches.

Certaines approches figent les parties du réseau déjà apprises et ajoutent, pour chaque nouvelle tâche, de nouveaux modules reliés aux précédents. Les réseaux progressifs, par exemple, ajoutent de nouvelles colonnes de neurones tout en réutilisant les connaissances acquises par des connexions latérales. Le modèle bénéficie ainsi de l’expérience accumulée sans risquer de la dégrader.

D’autres méthodes apprennent à n’activer qu’une partie des paramètres selon la tâche ou le contexte. On peut imaginer le modèle comme un réseau routier : au lieu de faire passer toutes les tâches par la même route, il apprend quels chemins internes utiliser pour chaque situation. Les approches par masques d’attention ou par sélection de sous-réseaux suivent cette logique.

Enfin, lorsque la nouvelle tâche est trop éloignée des précédentes, on peut agrandir le modèle en lui ajoutant des neurones ou des modules. Des méthodes comme PackNet exploitent par exemple les redondances d’un grand réseau pour libérer puis réserver des paramètres à de nouvelles tâches.

Ces stratégies réduisent sensiblement l’oubli, mais elles ont un coût : le modèle peut grossir au fil du temps, et il faut parfois savoir, au moment de l’usage, quelle partie du réseau mobiliser. Dans certains cas, cette information est disponible — par exemple si l’on sait quelle tâche est demandée. Dans d’autres, le modèle doit aussi apprendre à reconnaître le contexte.

Apprendre des représentations plus stables

Une piste complémentaire consiste à agir plus en amont : il ne s’agit pas seulement de protéger le modèle ou de lui ajouter des modules, mais de lui apprendre des représentations internes plus stables.

Une représentation interne, ou embedding, est la description numérique qu’une couche intermédiaire fabrique à partir d’une donnée. Une image, un texte ou un signal de capteur est transformé en un vecteur de nombres qui résume certaines caractéristiques utiles : formes, textures, mots, régularités, anomalies. Si deux données se ressemblent, on aimerait que leurs représentations soient proches ; si elles correspondent à des classes différentes, on aimerait qu’elles soient bien séparées.

L’objectif est alors d’organiser cet espace de représentation de façon à ce qu’il change le moins possible lorsque de nouvelles tâches arrivent. On peut conserver quelques prototypes — des représentants typiques d’une classe — qui servent d’ancrages. On peut aussi utiliser des méthodes contrastives, qui rapprochent les exemples semblables et éloignent les exemples différents dans l’espace des représentations. Ces méthodes sont utiles parce qu’elles tendent à extraire des caractéristiques plus générales, donc moins dépendantes d’un contexte particulier.

On peut également pratiquer un replay en espace latent : au lieu de stocker les données brutes, on mémorise les activations produites par une couche intermédiaire du réseau. Cette stratégie peut réduire fortement le coût en mémoire et en calcul. Elle ne résout toutefois pas automatiquement toutes les questions de confidentialité : une représentation interne peut encore contenir des informations sensibles !

Combiner plusieurs mécanismes pour éviter les oublis catastrophiques

Dans les systèmes les plus efficaces, ces idées ne sont pas utilisées isolément. On combine fréquemment plusieurs mécanismes : un petit tampon de replay avec une régularisation des poids, du replay avec de la distillation, ou encore des représentations stables avec une architecture modulaire.

Le choix dépend des contraintes concrètes : budget mémoire, exigences de confidentialité, coût de calcul, vitesse d’adaptation attendue, criticité de l’application. Dans les domaines sensibles, comme la santé, l’apprentissage continu ne doit pas signifier qu’un modèle se modifie sans contrôle. Il doit s’accompagner d’une surveillance de la dérive des données, d’évaluations régulières, de garde-fous et d’une possibilité de revenir à une version antérieure du modèle.

L’apprentissage continu ne promet donc pas une IA qui apprendrait indéfiniment sans risque. Il propose plutôt une manière plus réaliste de maintenir des modèles utiles dans un monde qui change : apprendre du présent, sans effacer trop vite le passé.

Eric Moulines ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d’une organisation qui pourrait tirer profit de cet article, et n’a déclaré aucune autre affiliation que son organisme de recherche.

– ref. L’oubli catastrophique, ou pourquoi les IA ne savent pas encore apprendre en continu – https://theconversation.com/loubli-catastrophique-ou-pourquoi-les-ia-ne-savent-pas-encore-apprendre-en-continu-276710