Comprendre les « modèles de fondation », ces nouvelles infrastructures numériques à la base de nombreuses applications d’IA

Source: The Conversation – in French – By Sabrine Mallek, Professeure Associée en Transformation Digitale, ICN Business School

La polyvalence des modèles de fondation les transforme en une nouvelle « infrastructure » numérique, au même titre que le cloud ou Internet. Au lieu de reconstruire un modèle d’IA spécifique à chaque projet, on peut se brancher directement sur des briques généralistes existantes. C’est un des secrets qui permet de développer des applications si sophistiquées et qui restent accessibles aux non-spécialistes.

Les systèmes d’apprentissage automatique ne se limitent plus à des outils conçus pour une seule tâche, comme la traduction ou la recommandation de produits. Une transformation majeure tient à l’émergence des foundation models, ou modèles de fondation : de très grands modèles entraînés sur des volumes massifs de données pour acquérir des connaissances générales, réutilisables dans de nombreux contextes.

Dans les organisations, ils agissent comme un accélérateur potentiel de transformation, mais leurs effets sur le terrain obligent, pour l’instant, à nuancer les promesses spectaculaires. Comment fonctionnent-ils ? Comment sont-ils régulés et quels sont les obstacles à une adoption qui porte ses fruits ?

Comment fonctionnent les modèles de fondation ?

Les modèles de fondation reposent sur un principe simple : apprendre des structures générales à partir de très grandes quantités de données hétérogènes – textes, images, codes, sons, vidéos, bases de données ouvertes et contenus sous licence, ou une combinaison de ces types de données.

L’objectif de l’entraînement initial est de permettre au modèle d’identifier des régularités statistiques dans les données et de construire des représentations générales du langage, des images ou d’autres formes d’information. Sur le plan technique, ces systèmes utilisent le plus souvent des architectures de réseaux de neurones profonds. Durant la phase d’entraînement, le modèle apprend à prédire une partie manquante de l’information, par exemple le mot suivant dans une phrase ou une portion d’image, en ajustant progressivement des milliards de paramètres. Ce processus d’apprentissage, appelé pré-entraînement, nécessite des ressources de calcul considérables et constitue la base du caractère « généraliste » de ces modèles.

Une fois pré-entraîné, le modèle de fondation peut être adapté à des usages spécifiques, allant de l’analyse de sentiment ou la réponse à des questions jusqu’à des tâches plus techniques, comme l’assistance au diagnostic médical.

Cette adaptation peut se faire grâce à un ajustement supplémentaire appelé fine-tuning, par exemple en nourrissant un modèle généraliste d’imagerie médicale avec des radiographies spécifiques à une maladie permettant à l’outil d’apprendre à prédire l’évolution d’une pathologie précise.

Elle peut aussi passer par l’apprentissage avec retour humain (reinforcement learning with human feedback), qui consiste à faire évaluer plusieurs réponses par des humains pour inciter le modèle à privilégier des formulations claires et sécurisées plutôt que de simples suites de mots statistiques.

Enfin, cette adaptation peut s’opérer simplement par prompting, en guidant le modèle par des instructions textuelles du type : « Résume ce document en trois points. »

C’est cette capacité à être réutilisés dans de nombreux contextes qui explique pourquoi ces systèmes sont qualifiés de « modèles de fondation » : ils servent de base technologique à une large gamme d’applications. Par exemple, GPT-4 ou GPT-5 servent déjà de socle opérationnel à de nombreuses applications, à l’image de ChatGPT, tout en conservant un potentiel d’extension encore largement ouvert.

infographie décrivant l’entraînement puis la spécialisation de modèles issus de modèles de fondation — Les modèles de fondation servent de base technologique à une large gamme d’applications. Cette infographie décrit l’entraînement puis les applications spécifiques issues de modèles de fondation.
Sabrine Mallek, Fourni par l’auteur

Comprendre l’écosystème : comment modèles de fondation, LLM et IA générative s’articulent-ils ?

Concrètement, les modèles de fondation ne sont pas une application en soi, mais une infrastructure de base. Ils marquent une évolution récente de l’intelligence artificielle (IA), rendue possible par la combinaison de trois facteurs : l’explosion des données, les progrès des capacités de calcul et l’apparition de nouvelles architectures d’apprentissage.

Un tournant majeur intervient en 2017 avec l’architecture des transformers. Cette innovation permet de mieux capter les relations dans les données (notamment le langage), et devient la base de modèles comme BERT ou GPT. Lorsqu’un modèle de fondation (une expression née officiellement en 2021) est spécialisé dans le traitement du langage, on parle alors de grand modèle de langage (LLM). Et c’est sur cette base que se développent aujourd’hui les usages les plus visibles : ceux de l’IA générative, capable de produire du texte, des images, des vidéos, du son ou du code – qui est devenue grand public et commercialement viable avec le lancement de ChatGPT, fin 2022, marquant le passage de l’infrastructure à l’usage de masse.

Le rapport entre ces modèles de fondation et l’IA générative peut être comparé à celui d’un « moteur » par rapport à sa « fonction ». Le modèle de fondation est ce moteur puissant, pré-entraîné sur des données colossales et conçu pour être adaptable à une multitude de tâches. L’IA générative, quant à elle, est la fonction d’application finale : c’est la capacité de ce moteur à produire un contenu inédit.

Concrètement, si l’on prend un modèle de fondation comme GPT-4 (le moteur), on peut l’utiliser pour analyser des milliers d’avis clients (une tâche purement analytique). Mais lorsqu’on lui demande de rédiger un e-mail, on active alors sa fonction d’IA générative. De la même manière, dans le domaine visuel, un modèle de fondation entraîné sur des millions d’images peut servir de moteur aussi bien pour détecter une anomalie sur une radiographie médicale (classification) que pour dessiner un paysage imaginaire à partir d’une simple phrase (IA générative).

Imbrication entre infrastructure technique, spécialisation linguistique (LLM) et fonction de génération. La génération est une fonction parmi d’autres (c’est une application pratique des modèles de fondation lorsqu’on leur demande de générer du contenu).
Sabrine Mallek, Fourni par l’auteur

Promesses d’efficience et réalités de terrain

Cette polyvalence signifie que les modèles de fondation tendent à devenir une nouvelle « infrastructure » numérique, au même titre que le cloud ou Internet : au lieu de reconstruire un modèle d’IA spécifique propre à chaque projet, les acteurs économiques se branchent directement sur ces briques généralistes existantes.

Dans les organisations, ils agissent comme un accélérateur potentiel de transformation, mais leurs effets sur le terrain obligent à nuancer les promesses de gains de productivité spectaculaires. Beaucoup d’entreprises peinent encore à dégager un retour sur investissement évident pour l’automatisation administrative, constatant souvent que les modèles de fondation ne réduisent pas la charge de travail, mais l’intensifie : les employés doivent désormais consacrer davantage d’énergie à vérifier et à corriger les résultats.

Par ailleurs, l’assistance aux experts (aide au code, à la décision) se heurte à une « frontière technologique en dents de scie » : face à une tâche donnée, le modèle peut exceller, mais s’avérer contre-productif s’il est utilisé aveuglément en dehors de sa zone de compétence.

Néanmoins, ces modèles permettent de créer de nouveaux services comme la personnalisation de la relation client à grande échelle. Mais pour libérer ce potentiel, la simple mutualisation technologique ne suffit pas. Il faut impérativement repenser l’organisation du travail en formant les employés pour leur donner l’autonomie nécessaire face à la machine.

Les débats européens sur la régulation

En Europe, les enjeux se sont cristallisés dans les discussions autour de l’AI Act, qui introduit une catégorie spécifique pour les « systèmes d’IA à usage général », dont les modèles de fondation sont l’exemple emblématique. L’idée est de ne plus réguler uniquement les cas d’usage finaux, mais aussi ces briques génériques qui irriguent tout l’écosystème.

La Commission nationale de l’informatique et des libertés (Cnil) s’est également saisie de ces enjeux à travers un plan d’action consacré à l’intelligence artificielle, visant à accompagner l’innovation tout en garantissant la protection des droits fondamentaux. Elle met notamment l’accent sur la protection des données utilisées pour entraîner les modèles, la transparence des systèmes ainsi que le développement d’IA respectueuses de la vie privée.

Dans ce contexte, l’entraînement de ces modèles soulève aussi des défis importants au regard du règlement général sur la protection des données (RGPD), notamment concernant l’origine des données utilisées, la possibilité pour les individus d’exercer leurs droits sur leurs données et la capacité technique des systèmes à supprimer ou de ne plus exploiter certaines informations après leur intégration dans l’apprentissage. Pour les entreprises, cela signifie que ces technologies doivent être intégrées dans des démarches structurées de conformité, de documentation et de gestion des risques.

La question devient donc : dans quelles conditions utiliser les modèles de fondation ? Cela implique une gouvernance claire entre fournisseurs, intégrateurs et utilisateurs, des exigences de transparence et de documentation, l’anticipation des impacts sur l’emploi à travers la formation et la reconversion ainsi qu’une articulation avec les politiques de responsabilité sociétale des entreprises (RSE), afin d’évaluer leurs effets sociaux, organisationnels et environnementaux.

Sabrine Mallek ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d’une organisation qui pourrait tirer profit de cet article, et n’a déclaré aucune autre affiliation que son organisme de recherche.

– ref. Comprendre les « modèles de fondation », ces nouvelles infrastructures numériques à la base de nombreuses applications d’IA – https://theconversation.com/comprendre-les-modeles-de-fondation-ces-nouvelles-infrastructures-numeriques-a-la-base-de-nombreuses-applications-dia-277990