Source: The Conversation – in French – By Achim Zeileis, Professor of Statistics, University of Innsbruck
L’Espagne, la France ou l’Angleterre soulèveront-elles le trophée ? En s’appuyant sur les données de milliers de matchs, des statisticiens ont simulé 100 000 fois la Coupe du monde 2026 de foot pour identifier les scénarios les plus probables.
Autrefois, pour savoir quelle équipe allait remporter la Coupe du monde, il fallait consulter des voyants à la boule de cristal, lire l’avenir dans les feuilles de thé ou espérer que Paul le Poulpe nous révèle ce qui allait se passer.
Aujourd’hui, la science des données offre une alternative plus fiable. Au sein d’une équipe de statisticiens, j’ai contribué à entraîner un algorithme d’apprentissage automatique afin de prédire le scénario le plus probable du tournoi.
Prévisions probabilistes et dés pipés
L’algorithme que nous avons conçu fonctionne en deux étapes. Dans un premier temps, des modèles statistiques sophistiqués sont combinés aux analyses des bookmakers et aux données du marché des transferts afin d’évaluer la force de toutes les équipes et de leurs joueurs. Dans un second temps, un algorithme d’apprentissage automatique détermine la meilleure façon de combiner ces estimations avec d’autres informations concernant les équipes.
Cette approche permet de produire une prévision probabiliste pour chaque match possible du tournoi. On peut l’imaginer comme une paire de dés pipés : au lieu de présenter les chiffres de 1 à 6 avec une probabilité identique, ces dés attribuent des probabilités différentes au nombre de buts que chaque équipe est susceptible de marquer.
Par exemple, selon nos prévisions, le dé du Mexique produit en moyenne 1,9 but lors du match d’ouverture, tandis que celui de son adversaire, l’Afrique du Sud, n’en produit que 0,7. Cela ne signifie toutefois pas que le Mexique gagnera à coup sûr. Une victoire mexicaine constitue simplement l’issue la plus probable, avec une probabilité de 65 %. Un match nul est moins probable (21 %), tandis qu’une victoire de l’Afrique du Sud représente le scénario le moins probable (14 %).
« ¡Vuelve a casa, el fútbol vuelve a casa! »
En utilisant différentes paires de dés pipés, il est possible de simuler le résultat de chaque match de la Coupe du monde. Nous avons pris en compte le tirage au sort officiel du tournoi ainsi que l’ensemble des règles de la FIFA, y compris les prolongations et les séances de tirs au but. Nous avons ensuite effectué 100 000 simulations afin de déterminer le scénario le plus probable de la compétition.
Les résultats montrent que l’Espagne est la favorite pour le titre, avec une probabilité de victoire de 14,5 %. Elle est suivie de près par l’Angleterre et la France, toutes deux à 12,4 %, puis par l’Allemagne avec 11,2 %.
En raison de l’élargissement du tournoi – cette Coupe du monde réunit 48 équipes et comporte cinq tours à élimination directe –, les écarts entre les favoris restent relativement faibles. Le Portugal et l’Argentine disposent eux aussi de solides chances de remporter le trophée, avec respectivement 8,9 % et 8,2 % de probabilité de victoire finale.
De son côté, les États-Unis ont de bonnes chances d’atteindre les seizièmes de finale : 78 %. Il s’agit de la probabilité la plus élevée de leur groupe, qui compte trois autres équipes. En revanche, lors de la phase à élimination directe, où chaque match est décisif, les chances de l’équipe américaine de poursuivre son parcours diminuent assez rapidement. La probabilité de voir le pays hôte soulever le trophée lors de la finale disputée au MetLife Stadium le 19 juillet n’est que de 1 %.
Les coulisses du modèle
Notre algorithme d’apprentissage automatique et les simulations qui en découlent reposent sur un mélange de données, d’expertise et de modèles statistiques.
Tout d’abord, l’ensemble des matchs internationaux disputés au cours des huit dernières années sert de base à une estimation rétrospective du niveau des équipes. Ensuite, une estimation prospective est établie à partir des cotes proposées par différents bookmakers internationaux, lesquelles reflètent leur appréciation experte du tournoi à venir.
Troisièmement, des évaluations individuelles des joueurs sont établies à partir de leur contribution aux buts marqués en club comme en sélection nationale. Enfin, la qualité actuelle des joueurs et leur potentiel futur sont appréhendés à travers leur valeur marchande estimée. Ces données sont disponibles sur le site Transfermarkt, qui s’appuie sur une approche fondée sur l’intelligence collective pour estimer des valeurs de marché qui, par nature, restent inconnues.
Ces quatre variables sont ensuite combinées à un large éventail d’autres indicateurs pertinents décrivant l’état actuel des différentes équipes et des pays qu’elles représentent. Cela comprend des éléments propres aux sélections, comme leur classement FIFA ou le nombre de joueurs ayant atteint les demi-finales de la Ligue des champions cette année. Nous avons également intégré des facteurs socio-économiques propres à chaque pays, tels que le PIB par habitant.
Pour déterminer si ces variables influencent réellement les résultats d’une Coupe du monde, et dans quelle mesure, nous avons eu recours à un algorithme d’apprentissage automatique.
Plus précisément, nous avons utilisé ce que l’on appelle une forêt aléatoire (random forest), un modèle composé d’un grand nombre d’arbres de décision, chacun étant entraîné sur des sous-ensembles légèrement différents des données. L’algorithme a été entraîné à partir de tous les matchs disputés lors des grandes compétitions internationales depuis la Coupe du monde 2006.
Il apprend ainsi à relier le niveau des équipes, la valeur marchande de leurs joueurs et d’autres facteurs au nombre de buts marqués lors des matchs de Coupe du monde. C’est cette information qui permet de « piper les dés » utilisés dans nos simulations.
Quelle fiabilité ?
Ce n’est pas la première fois que notre équipe, composée d’Andreas Groll, de Rouven Michels et de leurs collègues de l’université technique de Dortmund en Allemagne, ainsi que de Lars Magnus Hvattum du Molde University College en Norvège, de Gunther Schauberger de l’université technique de Munich et de moi-même, collabore pour prédire l’issue d’une Coupe du monde.
Lors de la Coupe du monde féminine 2019, nous avions correctement désigné les États-Unis comme futurs vainqueurs. Lors de la Coupe du monde féminine 2023 et de la Coupe du monde masculine 2022, les équipes sacrées — l’Espagne et l’Argentine — n’étaient pas nos favorites, même si notre modèle les identifiait comme de sérieuses prétendantes au titre.
La principale leçon est qu’une prévision repose sur des probabilités. Notre programme ne prétend pas prédire le vainqueur avec une certitude absolue. Mais il a peut-être davantage de chances de succès qu’un mollusque à huit bras.
![]()
Achim Zeileis ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d’une organisation qui pourrait tirer profit de cet article, et n’a déclaré aucune autre affiliation que son organisme de recherche.
– ref. Nous avons lancé 100 000 simulations de la Coupe du monde. Et le vainqueur est… – https://theconversation.com/nous-avons-lance-100-000-simulations-de-la-coupe-du-monde-et-le-vainqueur-est-285191














