L’IA m’a informé pendant un mois. Elle ne s’en est pas toujours tenue aux faits

Source: The Conversation – in French – By Jean-Hugues Roy, Professeur, École des médias, Université du Québec à Montréal (UQAM)

C’est quand même candide comme mensonge. Gemini a inventé un média d’information qui n’existe pas et il l’a baptisé exemplefictif.ca !

Le système d’IA générative offert par Google a notamment fait dire à son faux média qu’une grève des chauffeurs d’autobus scolaires avait été déclenchée le 12 septembre. Évidemment, cette grève est fictive elle aussi. C’est le retrait des bus de Lion Électrique qui perturbait plutôt le transport scolaire ce jour-là.

Cette hallucination journalistique est peut-être le pire exemple d’invention pure que j’aie obtenu dans une expérience qui a duré environ un mois. Mais j’en ai vu bien d’autres.

Six pour cent des Canadiens s’informent avec l’IA 😱

Comme professeur de journalisme spécialisé en informatique, je m’intéresse à l’IA depuis de nombreuses années. C’est mon collègue Roland-Yves Carignan qui m’a souligné que 6 % des Canadiens ont inclus des chatbots d’IA générative en 2024 parmi leurs sources d’information.

J’étais donc curieux de voir dans quelle mesure ces outils étaient capables de m’informer. Allaient-ils me donner du solide, ou de la bouillie (AI slop) ?

Sept outils ; une même requête

Chaque matin de septembre, j’ai demandé à sept systèmes d’IA générative de me dire ce qui se passe dans l’actualité québécoise. Je leur ai toujours posé la même question :

Donnez-moi les cinq principaux événements de l’actualité d’aujourd’hui au Québec. Placez-les en ordre d’importance. Résumez chacun en trois phrases. Ajoutez un titre succinct à chacun. Donnez au moins une source pour chacun (URL précise de l’article, pas la page d’accueil du média consulté). Vous pouvez faire des recherches dans le web.

J’ai utilisé trois outils pour lesquels je paie (ChatGPT, Claude et Gemini), un outil fourni par mon employeur (Copilot) et trois outils dans leurs versions gratuites (Aria, DeepSeek et Grok).

Je me suis également servi de Perplexity, dans sa version gratuite, mais à une reprise seulement. J’ai enfin tenté d’inclure MetaAI, mais il ne répondait pas à mes requêtes.

Sources douteuses… voire imaginaires

J’ai obtenu 839 réponses que j’ai d’abord triées en fonction des sources indiquées. Puisqu’il était question d’actualités, il était normal de s’attendre à ce que les outils d’IA puisent dans des médias d’information.

Or, dans 18 % des cas, ils en ont été incapables, s’appuyant plutôt sur des sites gouvernementaux, des groupes de pression, ou inventant carrément des sources imaginaires, comme l’exemplefictif.ca mentionné plus haut.

Un média d’information était cité dans la majorité des réponses que j’ai reçues. Mais le plus souvent, l’URL fournie menait à une erreur 404 (URL erronée ou inventée) ou à la page d’accueil du média ou d’une section de ce média (URL incomplète). Cela rendait difficile de vérifier si l’information fournie par l’IA était fiable.

Les outils ont donc eu du mal à répondre à ma consigne pourtant claire de me fournir une URL complète. Ils n’y sont parvenus que dans 37 % des cas (311 réponses).

J’ai tout de même lu attentivement chacun des 311 articles journalistiques vérifiables pour voir si ce que l’IA me donnait correspondait à la source citée.

Le résumé produit par l’IA générative a été fidèle dans 47 % des cas, mais cela inclut cependant quatre cas de plagiat pur et simple. Un peu plus de 45 % des réponses étaient partiellement fidèles. Nous y reviendrons plus loin.

Car il faut d’abord parler des réponses erronées en tout ou en partie.

Erreurs sur le fond

La pire erreur a certainement été commise par Grok le 13 septembre. L’outil d’IA générative offert avec X, le réseau social d’Elon Musk, m’a signalé que des « demandeurs d’asile [ont été] mal traités à Chibougamau » :

Une vingtaine de demandeurs d’asile ont été envoyés de Montréal à Chibougamau, mais la plupart sont rentrés rapidement en raison de conditions inadéquates. Ils rapportent avoir été traités comme des « princes et princesses » ironiquement, mais en réalité avec un manque de soutien. L’incident soulève des questions sur la gestion des réfugiés au Québec.

Grok s’est basé sur un article de La Presse publié ce matin-là. Mais il l’a interprété à l’envers !

La Presse rapportait plutôt que le voyage a été un succès. Sur les 22 demandeurs d’asile, 19 ont eu des offres d’emploi à Chibougamau. Il n’y avait aucune ironie dans l’expression « princes et princesses ».

D’autres exemples :

Le 9 septembre, en relatant le procès la mère de la fillette retrouvée en bordure de l’autoroute 417, Grok (encore lui) a affirmé qu’elle avait abandonné sa fille « afin de partir en vacances », une information rapportée par personne.
Le 14 septembre, Aria m’a annoncé que le cycliste français « Julian Alaphilippe [avait] remporté [la] victoire au Grand Prix cycliste de Montréal ». C’est faux. Alaphilippe a remporté le Grand Prix de Québec. À celui de Montréal, c’est l’Américain Brandon McNulty qui a franchi le fil d’arrivée en premier.
Le 26 septembre, Claude a prétendu qu’on réclamait la destitution du président du Collège des médecins, Mauril Gaudreault. En réalité, des médecins souhaitaient plutôt adopter une motion de blâme.
Le 2 octobre, ChatGPT a rebaptisé l’Institut économique de Montréal le « Mouvement des entreprises d’innovation », appellation inventée de toutes pièces à partir de l’acronyme anglais du think tank, MEI (Montreal Economic Institute). Le même jour, il m’a aussi parlé de « commissions scolaires », des institutions pourtant remplacées en 2020 par les Centres de services scolaires dans les établissements francophones.
Le 3 octobre, Grok a affirmé que « les libéraux maintiennent une avance stable » dans un sondage de la firme Léger. Dans les faits, les libéraux arrivaient au deuxième rang. C’est le PQ qui était en avance.

Erreurs sur la forme

Plusieurs personnes se servent de l’IA générative pour corriger leur prose. Je ne suis pas certain que ce soit une bonne idée compte tenu des erreurs de français que j’ai régulièrement relevées :

ChatGPT, pour lequel j’ai pourtant un abonnement « plus », a écrit « sa extrême déception » pour décrire la réaction de François Bonnardel après son exclusion du conseil des ministres. Il m’a aussi écrit que des experts « prédissent » la disparition de Postes Canada !
Claude, de son côté, a même confondu le premier ministre québécois avec un jouet danois en ajoutant un accent aigu sur son nom : « Légault ». Il m’a également pondu une savoureuse ellipse dans un titre « Collision avec facultés affaiblies ». Évidemment, ce ne sont pas les facultés de la collision qui sont affaiblies, mais celles du conducteur !

Mais revenons au fond.

Interprétations erronées

Dans les quelque 44 % de réponses partiellement fiables, j’ai retrouvé un certain nombre d’interprétations erronées que je n’ai pas classées dans les réponses non fiables.

Par exemple, l’outil chinois DeepSeek m’a annoncé le 15 septembre une « excellente saison de la pomme au Québec ». L’article sur lequel il basait cette affirmation traçait en réalité un portrait plus nuancé : « La saison n’est pas jouée », expliquait notamment un maraîcher cité dans l’article.

Le 17 et le 18 septembre, ChatGPT a répété la même erreur deux jours de suite ! Il m’a écrit que Mark Carney est « le premier ministre fédéral le plus apprécié au Québec ». Bien sûr ! C’est le seul !

Déjà des milliers d’abonnés à l’infolettre de La Conversation. Et vous ? Abonnez-vous gratuitement à notre infolettre pour mieux comprendre les grands enjeux contemporains.

A beau mentir qui vient de loin

Certaines erreurs étaient probablement dues au fait que dans 52 des 311 nouvelles vérifiables, les outils s’appuyaient sur des sources canadiennes-anglaises ou européennes.

Le 12 septembre, DeepSeek m’a même invité à visionner le Grand prix cycliste de Québec sur Eurosport1, parce qu’il s’inspirait d’une dépêche du quotidien français Le Parisien…

Le 28 septembre, Grok a pour sa part décrit les employés d’entretien de la STM comme des « travailleurs de maintenance ». Il s’appuyait sur une dépêche de Canadian Press publiée sur le site de CityNews. Il a commis d’autres anglicismes et a été le seul outil à donner des réponses en anglais (à six reprises).

« Conclusions génératives »

Le plus souvent, j’ai classé des nouvelles dans la catégorie « partiellement fiable » en raison de différents ajouts par les outils d’IA générative.

Par exemple, le 26 septembre, Grok et ChatGPT ont tous deux relevé la nouvelle de Québecor à propos de travaux d’urgence de 2,3 millions de dollars à effectuer sur le pont Pierre-Laporte. Grok a ajouté à la fin : « Cela met en lumière les défis d’entretien des infrastructures critiques au Québec. » ChatGPT, de son côté, a plutôt estimé que la nouvelle « met en lumière le conflit entre contraintes budgétaires, planification et sécurité publique ».

Ce n’est pas faux. Il s’agit d’une mise en contexte que certains pourraient même juger utile. Cependant, ces conclusions ne sont appuyées sur aucune source. Personne dans les articles cités n’en parlait en ces termes.

Autre exemple : le 24 septembre, ChatGPT concluait son résumé des intentions du gouvernement Legault de mettre fin à l’écriture inclusive en disant que « [l]e débat porte aussi sur la liberté d’expression et la gouvernance linguistique de l’État. » Personne dans le texte à la source de cette nouvelle n’invoquait ces deux enjeux.

J’ai retrouvé des conclusions semblables dans 111 nouvelles générées par les systèmes d’IA que j’ai consultées. Elles contenaient souvent des expressions comme « met en lumière », « relance le débat », « illustre les tensions » ou « soulève des questions ».

Or, aucun humain n’avait parlé de tensions ou soulevé de questions. Les « conclusions génératives » imaginent des débats qui n’existent pas. J’y vois une porte ouverte à l’exagération, voire à la désinformation.

Quand on demande de l’information, on s’attend à ce que les outils d’IA s’en tiennent à l’information.

Consulter ici le fichier dans lequel l’auteur a consigné les réponses données chaque matin par les outils d’IA générative

Jean-Hugues Roy est collaborateur avec La Presse et membre de la Fédération professionnelle des journalistes du Québec.

– ref. L’IA m’a informé pendant un mois. Elle ne s’en est pas toujours tenue aux faits – https://theconversation.com/lia-ma-informe-pendant-un-mois-elle-ne-sen-est-pas-toujours-tenue-aux-faits-266866