À force d’utiliser l’IA, les journalistes risquent-ils d’appauvrir la langue ?

Source: The Conversation – France in French (2) – By Xosé López-García, Periodismo digital, comunicación digital, Universidade de Santiago de Compostela

Que perd-on lorsque l’écriture journalistique est de plus en plus confiée aux machines ? Selon plusieurs travaux récents, le risque n’est pas seulement informationnel : il concerne aussi la capacité de la presse à renouveler la langue. Markus Winkler / Unsplash, CC BY

Historiquement, le journalisme a contribué à diffuser de nouveaux mots et à nommer les transformations du monde. Si les textes générés par l’IA deviennent dominants, cette dynamique d’innovation linguistique pourrait s’affaiblir.

Que devient le langage public lorsqu’une part croissante des textes qui circulent dans la presse, sur Internet et sur les réseaux sociaux commence à être rédigée par des machines ? La question ne concerne pas seulement le journalisme en tant qu’activité professionnelle. Elle peut aussi affecter la richesse de la langue que nous utilisons pour comprendre, décrire et débattre du réel.

Historiquement, la presse a été l’un des espaces où la langue commune s’est développée et enrichie. Elle n’est évidemment pas le seul moteur du changement linguistique, mais elle constitue l’un des lieux où les sociétés mettent en circulation de nouveaux mots, de nouvelles tournures et de nouvelles façons de nommer des phénomènes émergents. Plusieurs travaux sur le langage journalistique et les néologismes montrent d’ailleurs que les journaux ont longtemps joué un rôle essentiel dans la création et la diffusion de vocabulaire nouveau, en particulier lorsqu’il s’agissait de rendre compte d’événements, de technologies ou de transformations sociales auprès d’un large public.

Ce rôle pourrait s’affaiblir si une part importante de l’écriture journalistique était déléguée à des systèmes d’IA générative. Les grands modèles de langage reposent, de manière générale, sur la prédiction du mot – ou plus précisément du « token » – le plus probable au sein d’une séquence. Ils produisent ainsi des textes fluides et plausibles, mais tendent également à privilégier les régularités statistiques, les formulations les plus fréquentes et les tournures déjà stabilisées.

Cela ne signifie pas, en soi, que le langage se dégrade automatiquement. Le problème apparaît lorsque cette logique devient dominante dans la production des textes qui alimentent l’espace public.

Quand les IA s’entraînent sur des textes produits par d’autres IA

Le risque devient plus sérieux lorsque ces systèmes commencent à être entraînés à partir de textes produits par d’autres IA. C’est ce que plusieurs travaux récents décrivent sous le nom de model collapse, ou « effondrement du modèle » : un processus de dégénérescence dans lequel les données générées par un modèle finissent par contaminer l’entraînement des générations suivantes.

Appliqué au langage, cela signifie que si les systèmes apprennent de plus en plus à partir de textes synthétiques, et si ces textes en viennent à saturer le Web et l’espace public, le réservoir linguistique disponible pour les futurs entraînements se rétrécit. Plus il y a de textes artificiels, moins les modèles sont exposés à la diversité réelle des usages humains de la langue. À terme, cela peut entraîner un appauvrissement du langage dans différents domaines.

Reproduction et amplification des biais

Tout d’abord, lorsque la diversité des données diminue et que les modèles s’appuient principalement sur des schémas déjà établis, les biais présents dans les données d’entraînement risquent d’être renforcés plutôt que corrigés. La littérature récente sur l’évolution des modèles de langage met précisément en garde contre le fait que les processus récursifs peuvent amplifier des préjugés existants au lieu de diversifier les points de vue.

Par ailleurs, l’écriture tend à se ressembler de plus en plus à elle-même : les mêmes structures syntaxiques, les mêmes tonalités intermédiaires, les mêmes formulations et les mêmes façons d’organiser les paragraphes reviennent sans cesse. Cette évolution est particulièrement importante pour le journalisme, car la presse ne se contente pas de transmettre des informations : elle fait le lien entre des savoirs spécialisés et un large public, hiérarchise les enjeux, traduit des vocabulaires techniques et expérimente de nouvelles formulations. Lorsque la langue de l’espace public devient trop uniforme, sa capacité à s’adapter finement à la nouveauté s’affaiblit.

Une érosion de l’innovation linguistique

Dans ce contexte, les mots rares ou spécialisés, les constructions moins fréquentes ainsi que certains nuances pragmatiques — comme l’ironie, l’ambiguïté ou certaines variations du point de vue — tendent à reculer. L’augmentation de la proportion de textes synthétiques dans les données d’entraînement est associée à une dégradation des performances et à une représentation plus pauvre de la diversité du langage humain. En termes simples, le système préserve mieux le centre que les marges.

Or, nombre d’innovations linguistiques naissent précisément dans ces marges : sous la forme d’usages instables, de détournements ponctuels ou de solutions locales inventées pour nommer une réalité nouvelle. Si le système privilégie systématiquement les formulations les plus probables, ces formes émergentes disposent de moins d’espace pour circuler et s’imposer.

Il ne faut pas comprendre cet enjeu comme une opposition abstraite entre « l’humain » et « la machine », mais plutôt comme la différence entre une langue nourrie par les contingences de la vie sociale et une prose produite à partir de régularités déjà apprises.

Un appauvrissement de l’écosystème linguistique

L’enjeu ne se limite pas à une diminution du nombre de mots différents. Il concerne aussi la capacité à établir des distinctions fines. Lorsque le langage devient plus vague, plus répétitif ou plus prévisible, les outils dont dispose une société pour décrire les problèmes, nuancer les positions et débattre dans l’espace public s’appauvrissent eux aussi.

À une échelle plus large, la question n’est donc plus seulement de savoir ce qui arrive à un modèle d’IA, mais ce qui arrive à l’écosystème linguistique public dans son ensemble. Si le Web se remplit de textes synthétiques, lecteurs, journalistes et institutions seront progressivement exposés à une langue publique moins diverse. Certains travaux récents vont jusqu’à évoquer une forme de « contamination » de l’écosystème numérique par les données synthétiques et montrent que la manière dont se combinent données réelles et artificielles est déterminante pour éviter des dégradations plus importantes.

Un scénario inéluctable ?

Il convient toutefois de ne pas exagérer le risque. Les travaux de recherche ne concluent pas que tout usage de l’IA entraîne inévitablement un effondrement ou une dégradation. Certaines études montrent que lorsque les données synthétiques sont mélangées à des données réelles, plutôt que de les remplacer entièrement, les mécanismes de dégradation ne se manifestent pas de la même manière et les erreurs peuvent rester limitées. Autrement dit, le problème ne réside pas dans un usage ponctuel de l’IA ni dans une combinaison prudente de données synthétiques et humaines, mais dans le remplacement massif de l’écriture humaine suivi du recyclage de cette production artificielle comme s’il s’agissait d’un langage vivant.

Avec l’intégration de l’IA dans les routines de production journalistique, le journalisme gagne en efficacité. Mais que perd une société lorsque la langue qui circule dans l’espace public devient plus uniforme, plus prévisible et moins ouverte à la nouveauté ? Si la presse renonce, même partiellement, à sa fonction d’écriture, de traduction, de nomination et d’expérimentation linguistique, ce ne sont pas seulement les pratiques professionnelles qui se transforment. C’est aussi l’un des principaux espaces où la langue commune a historiquement pu s’enrichir, se renouveler et élargir son champ des possibles qui s’en trouve affaibli.

Les auteurs ne travaillent pas, ne conseillent pas, ne possèdent pas de parts, ne reçoivent pas de fonds d’une organisation qui pourrait tirer profit de cet article, et n’ont déclaré aucune autre affiliation que leur organisme de recherche.

– ref. À force d’utiliser l’IA, les journalistes risquent-ils d’appauvrir la langue ? – https://theconversation.com/a-force-dutiliser-lia-les-journalistes-risquent-ils-dappauvrir-la-langue-283938