Pouvait-on prédire les inondations espagnoles de 2024 ? Le problème de la dérive des données illustrée par la climatologie

Source: The Conversation – France in French (2) – By Rémi Vaucher, Enseignant-chercheur, EPITA

Les inondations de Valence (Espagne), vues par le satellite état-unien Landsat-8, le 30 octobre 2024. ESA pour le traitement de données USGS, CC BY-NC-SA

Le temps est l’ennemi des statisticiens. Même à l’ère des systèmes d’IA, un modèle météorologique qui serait uniquement fondé sur des données passées et des principes statistiques peut avoir des difficultés à prévoir correctement les quantités de pluie futures, dans le contexte du changement climatique – tout simplement parce que la situation évolue.

Nous avons toutes et tous vu passer les images terribles des inondations espagnoles d’octobre 2024. Avec plus de 200 morts, cet évènement est passé directement au statut d’incident le plus meurtrier survenu en Espagne depuis les inondations de 1962.

D’aucuns pourraient s’étonner du manque de préparation alors que les méthodes d’intelligence artificielle (IA) se répandent. À titre d’exemple, le modèle européen ECMFW, utilisé par Météo France, a récemment intégré un modèle d’IA (nommé AIFS) pour améliorer ses performances.

Avec toutes les méthodes récentes en météorologie et en climatologie, liées au déploiement de l’IA, pourquoi les inondations de Valence n’ont-elles pas pu être anticipées ?

Les statistiques au service de la climatologie

Avant d’entrer dans le vif du sujet, je voudrais clarifier un point crucial : je ne suis pas climatologue et ne me revendique pas tel. Je ne vais donc pas m’étendre en détail sur des phénomènes météorologiques que je ne maîtrise pas assez.

Par contre, je connais bien l’étude des données temporelles. Et la question de la prédictibilité de ce phénomène météorologique va me permettre de vous expliquer un problème de statistiques sur lequel la recherche travaille toujours : la dérive des données (en anglais, data drift).

Tout d’abord, il faut formaliser un peu cet évènement climatique.

Premièrement, ce n’est pas un événement qui arrive tous les quatre matins. Ce genre d’occurrence reste statistiquement rare : on utilisera donc l’appellation « événement rare » ou « événement extrême ».

Deuxièmement, les inondations espagnoles de 2024 sont un événement rare parmi des événements rares. Explication : les habitants des Cévennes connaissent bien ces fortes pluies sous le nom d’« épisodes cévenols ». Ces épisodes cévenols font partie de ce que l’on appelle les épisodes méditerranéens. La « DANA » espagnole de 2024 est un exemple typique d’épisode méditerranéen : c’est exactement le même phénomène que les épisodes cévenols, et donc aussi « rare », mais non localisé aux Cévennes.

Finalement, parlons un peu de ce que nous appelons la « distribution des données ». La distribution des données, tout du moins dans ce cas-ci, c’est la probabilité qu’un évènement (un épisode pluvieux en ce qui nous concerne) arrive, qu’il soit d’une intensité donnée, qu’il ait une durée donnée, etc. Par exemple :

Si nous sommes le 15 septembre, il est beaucoup plus probable que, demain, il pleuve à Brest (Finistère) qu’à Nice (Alpes-Maritimes) : la probabilité de l’événement « pluie » à Brest est bien plus élevée que celle du même événement à Nice.
Si toutefois il pleut demain à Brest, il est fort peu probable que cette pluie soit d’intensité très élevée. En parallèle, s’il pleut demain à Nice, la possibilité que ce soit un épisode méditerranéen est plus élevée qu’à Brest. Il est donc plus probable d’avoir de fortes pluies à Nice, « sachant qu’il pleuvra demain », qu’à Brest.

Il est impossible de connaître parfaitement cette distribution, c’est-à-dire la probabilité qu’il pleuve une quantité donnée à tel endroit donnée à tel instant précis. Par contre, les scientifiques disposent d’un certain nombre d’outils permettant d’apprendre à prédire les évènements.

graphe — Un exemple de distribution des précipitations : il s’agit de la probabilité qu’il pleuve une quantité donnée lors d’un jour de pluie. Dans cet exemple, il y 5 % de chance qu’il pleuve 12 millimètres dans la journée et, s’il pleut 40 millimètres ou plus, on fait face à un événement extrême et rare.
Rémi Vaucher, Fourni par l’auteur

Apprendre à prédire les évènements

Ces outils, ce sont majoritairement les statisticiens qui les inventent. Ils vont regarder les données passées et tenter d’en reproduire le comportement pour pouvoir prédire les données futures.

Par exemple, pour le sujet qui nous intéresse : les villes du pourtour méditerranéen ont besoin de pouvoir prédire les épisodes extrêmes et notamment la quantité d’eau (en millimètres) pour prévoir la mise en place de dispositifs exceptionnels (par exemple, des SMS alertant les habitants d’un risque de pluie ou d’inondation).

Pour cela, on va disposer de tous les relevés météorologiques (température, pression atmosphérique, vitesse du vent, orientation du vent, etc.) en plusieurs points géographiques autour de la zone concernée.

En apprenant à un algorithme à utiliser les données de la journée actuelle pour prédire la probabilité d’occurrence d’un épisode méditerranéen pour les deux ou trois jours à venir – et, si un épisode est envisagé, la quantité de précipitation prévue –, l’administration peut utiliser d’autres modèles (physique, statistique) pour prévoir les risques d’inondation dans telle ou telle zone de la localité.

Glissement de distribution et changement climatique

Malheureusement, avec le changement climatique, le climat change. Pour un statisticien, cette phrase signifie : « Un modèle entraîné sur le passé peut-il encore prévoir correctement la quantité de pluie de demain ? »

La figure ci-dessous nous montre mois par mois, depuis 2008, comment évolue le maximum de pluie dans une station météorologique proche de Valence (Espagne). Nous pouvons observer des valeurs maximales fluctuantes, mais dont les maximums restent sous 200 millimètres cumulés pendant deux jours.

Maintenant, admettons que nous entraînons un modèle à prédire les précipitations cumulées des deux prochains jours en utilisant ces données : nous lui donnons plein d’indicateurs au jour J, et nous souhaitons les précipitations cumulées des jours J+1 et J+2. Il est intuitif de penser que le modèle ne dépassera jamais la valeur de 200 millimètres, et cette intuition est réaliste : après tout, pourquoi le ferait-il ? Les modèles statistiques ne sont pas faits pour réfléchir à de nouvelles choses, ils sont faits pour reproduire un comportement appris, présent dans les données, qui aurait déjà pu (statistiquement) survenir dans le passé.

Analysons maintenant la suite des données.

Si nous avions utilisé notre modèle entraîné sur les données 2007-2023 pour prédire les précipitations des 16 et 17 octobre 2024, nous nous serions… certainement lamentablement plantés. Plus précisément, le modèle aurait sous-estimé la quantité de pluie (ce qui peut conduire des communes à avoir un faux sentiment de sécurité).

Ces dernières figures montrent bien que les inondations de Valence en 2024 étaient un évènement tellement extrême qu’il en devenait imprévisible. Pour mieux illustrer ce propos, la figure suivante montre, autour d’une ville où les épisodes cévenols sont plus fréquents, l’augmentation progressive de l’intensité de ces évènements. C’est ce que l’on appelle un « glissement de la distribution ».

Illustration du glissement de la distribution des précipitations (invisibles sur les données de Valence). On voit que, en 1960, les précipitations sont majoritairement entre 200 millimètres et 300 millimètres alors qu’elles se situent, en 2020, entre 250 millimètres et 400 millimètres.
Rémi Vaucher, Fourni par l’auteur

Le temps : l’ennemi ancestral du statisticien

Ce phénomène de glissement dans le temps ne s’applique pas qu’en climatologie, mais il y est particulièrement crucial au vu des victimes causées ces dernières années. En santé, beaucoup de facteurs influencent les données. Sont susceptibles d’évoluer dans le temps par exemple : les sources de pollution, le nombre de personnes vaccinées, le nombre de fumeurs, etc. Dans le numérique, les systèmes de recommandations sur les plateformes de contenus doivent réussir à s’adapter aux phénomènes de mode.

Enfin, le glissement de distribution ne concerne pas que les évolutions temporelles. Par exemple, les résultats d’une étude neuroscientifique sur des étudiants aux États-Unis restent-ils valides lorsqu’on l’applique à des quadragénaires en Inde ?

En somme, l’évolution (temporelle) de certains facteurs, comme les populations ou le climat, représente de vrais défis pour les statisticiens. Pour ce qui est de la météorologie, il existe des systèmes dits « hybrides », c’est-à-dire qui combinent une compréhension de la physique du système et des statistiques sur les données passées. Cette hybridation améliore les performances de prévision, mais les modèles restent encore, pour l’instant, en difficulté sur les évènements climatiques extrêmes.

Rémi Vaucher ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d’une organisation qui pourrait tirer profit de cet article, et n’a déclaré aucune autre affiliation que son organisme de recherche.

– ref. Pouvait-on prédire les inondations espagnoles de 2024 ? Le problème de la dérive des données illustrée par la climatologie – https://theconversation.com/pouvait-on-predire-les-inondations-espagnoles-de-2024-le-probleme-de-la-derive-des-donnees-illustree-par-la-climatologie-280312