AlphaGenome, une nouvelle avancée en intelligence artificielle pour comprendre les effets des mutations génétiques

Source: The Conversation – France in French (2) – By Élodie Laine, Professeure en biologie computationnelle, Sorbonne Université

Même une mutation génétique très simple – une lettre qui change dans l’immense chaîne composée d’A, T, C et G – peut avoir des conséquences sur la santé. Sangharsh Lohakare/Unsplash, CC BY

Notre ADN est composé d’un enchaînement de quatre petites molécules appelées « acides nucléiques » et dénotées par les lettres A, C, G, et T. Parfois, une mutation génétique a lieu et affecte notre santé. Une simple modification dans la grande séquence de lettres qui constitue notre génome peut suffire à affecter l’expression des gènes ou les versions des protéines produites à partir de ces gènes.

Mais on ne sait pas, à l’heure actuelle, expliquer systématiquement comment telle ou telle mutation génétique peut avoir tel ou tel effet. C’est la question à laquelle AlphaGenome, le nouveau logiciel d’intelligence artificielle présenté dans la revue Nature par Google, tente de répondre.

AlphaGenome analyse un million d’acides nucléiques à la fois, et prédit, pour chacun d’eux, des milliers de quantités, qui sont autant de facettes de la régulation de nos gènes pour façonner nos tissus et nos organes.

Coupler un tel niveau de résolution avec un contexte aussi long (un million de lettres !) et prédire autant d’aspects de la régulation du génome relève du tour de force. Cependant, ce nouvel opus de la série Alpha de DeepMind ne représente pas une avancée aussi spectaculaire qu’AlphaGo ou AlphaFold, par exemple.

AlphaGenome affine une approche existante, déjà implémentée dans Enformer et Borzoi, deux modèles d’apprentissage profond développés chez Google qui ont fait leurs preuves. Il améliore, d’une part, leur efficacité par des optimisations techniques et, d’autre part, leur pertinence, en modélisant plus finement la complexité des processus génétiques.

Pourquoi cette avancée est importante

L’enjeu de ce travail est de taille pour la santé humaine. Les bases de données génomiques de populations humaines recensent près de 800 millions de variations ponctuelles – c’est-à-dire des changements portant sur une seule lettre du code génétique – dont l’impact sur notre santé reste largement inexploré. Identifier quelles sont celles qui sont à l’origine de maladies ou de dysfonctionnements, et comprendre leurs mécanismes d’action, est crucial.

Par exemple, dans certaines leucémies, une mutation d’un seul acide nucléique active de manière inappropriée un gène bien spécifique. AlphaGenome confirme le mécanisme déjà connu de cette activation aberrante : la mutation permet à un régulateur génétique de s’accrocher au gène, et modifie les marques épigénétiques alentour.

Ainsi, en unifiant plusieurs dimensions de la régulation génétique, AlphaGenome s’impose comme un modèle de fondation, c’est-à-dire un modèle générique qui peut être transféré ou appliqué facilement à plusieurs problèmes.

Quelles sont les suites de ces travaux ?

Plusieurs limitations tempèrent néanmoins l’enthousiasme.

Par exemple, les prédictions sur différentes facettes d’un même processus biologique ne sont pas toujours cohérentes entre elles, révélant que le modèle traite encore ces modalités de façon relativement cloisonnée.

Le modèle peine aussi à capturer la « spécificité tissulaire », c’est-à-dire le fait qu’un même variant génétique peut être délétère dans un tissu et neutre dans un autre.

De plus, il reste difficile de quantifier l’ampleur de l’effet d’une mutation.

Enfin, AlphaGenome prédit des conséquences moléculaires, pas des symptômes ni des diagnostics – or, entre une variation d’ADN et une maladie, il reste énormément de travail pour comprendre les relations entre ces différents niveaux ; et il n’a pas encore été validé sur des génomes individuels – un passage obligé pour toute application en médecine personnalisée, où l’enjeu serait d’interpréter le profil génétique unique d’un patient pour prédire sa susceptibilité à certaines maladies ou adapter son traitement.

Au-delà de ces enjeux pour la santé humaine, comment transférer cette connaissance à la biodiversité dans son ensemble ? AlphaGenome dépend en effet de mesures expérimentales, accessibles en abondance uniquement pour une poignée d’espèces (l’humain et quelques organismes modèles). Une autre famille de modèles pourrait ici jouer un rôle complémentaire : les « modèles de langage génomique », qui fonctionnent un peu comme ChatGPT mais pour prédire la suite d’une séquence d’ADN plutôt que la suite d’une phrase. Ces modèles, entraînés sur des millions de séquences génomiques, peuvent ainsi capturer les règles et les motifs conservés au cours de l’évolution, ce qui permet de déchiffrer des génomes inconnus.

Rien de tout cela n’existerait sans les grandes bases de données publiques et le travail cumulé de la recherche académique et des consortia ouverts, qui ont produit, standardisé et partagé les données nécessaires à l’entraînement de ces modèles. La suite logique est claire : la science doit rester ouverte, au service de la société. L’équipe d’AlphaGenome a rendu le code et les poids publiquement accessibles, et propose une interface facilitant l’adoption par la communauté scientifique. Reste à voir comment celle-ci s’emparera de cet outil : sera-t-il utilisé comme une « boîte noire » pratique, ou inspirera-t-il un véritable changement de paradigme en génomique computationnelle ?

Cet article a bénéficié de discussions avec Arnaud Liehrmann, post-doctorant au laboratoire de Biologie computationnelle, quantitative et synthétique.

Tout savoir en trois minutes sur des résultats récents de recherches commentés et contextualisés par les chercheuses et les chercheurs qui les ont menées, c’est le principe de nos « Research Briefs ». Un format à retrouver ici.

Elodie Laine est membre junior de l’Institut Universitaire de France. Elle a reçu des financements de l’Agence Nationale de la Recherche (ANR, France 2030, PostGenAI@Paris, ANR-23-IACL-0007) et de l’Union Européenne (ERC, PROMISE, 101087830). Les points de vue et opinions exprimés sont toutefois ceux des auteurs uniquement et ne reflètent pas nécessairement ceux de l’Union européenne ou du Conseil européen de la recherche. Ni l’Union européenne ni l’autorité octroyant la subvention ne peuvent en être tenus responsables.

Julien Mozziconacci est professeur au Muséum National d’Histoire Naturelle et membre junior de l’Institut Universitaire de France. Il a reçu des financements de l’Agence Nationale de la Recherche (ANR, France 2030, PostGenAI@Paris). Les points de vue et opinions exprimés sont toutefois ceux des auteurs uniquement et ne reflètent pas nécessairement ceux des instituts qui les ont financés.

– ref. AlphaGenome, une nouvelle avancée en intelligence artificielle pour comprendre les effets des mutations génétiques – https://theconversation.com/alphagenome-une-nouvelle-avancee-en-intelligence-artificielle-pour-comprendre-les-effets-des-mutations-genetiques-275833