Peut-on faire confiance aux sondages politiques ? Un statisticien nous donne les clés pour les décrypter

Source: The Conversation – in French – By Léo Gerville-Réache, Modélisation statistique, Université de Bordeaux

En vue de l’élection présidentielle de 2027, nous allons être matraqués de sondages. Quelle confiance accorder à ces chiffres ? Pour le comprendre, il faut se pencher sur les statistiques, déterminer comment elles sont construites et déterminer les biais et les incertitudes.

Le dimanche 7 juillet 2024, le verdict des urnes a balayé des semaines de « certitudes statistiques ». Alors que les instituts plaçaient le Rassemblement national (RN) et ses alliés en tête avec une fourchette de 170 à 230 sièges, les résultats définitifs ont figé le compteur à 143 sièges, reléguant le parti à la troisième place.

Comment un appareil statistique aussi sophistiqué a-t-il pu manquer la physionomie de l’Assemblée à ce point ? La réponse ne réside pas seulement dans de « mauvais chiffres », mais dans un décalage structurel entre ce que la loi encadre, ce que la statistique permet, et ce que le public entend.

Le « sondage » contrôlé contre la « projection » libre

Depuis la loi n^o 2016-508 du 25 avril 2016, la Commission des sondages est chargée de veiller au respect de la réglementation. Elle s’est dotée d’un site donnant accès aux notices explicatives de l’ensemble des sondages électoraux publiés, et publie régulièrement des communiqués. Le 18 juin 2024, à l’occasion des élections législatives, la commission alerte sur une distinction juridique fondamentale qui échappe souvent au grand public :

Le sondage (contrôlé) : une enquête statistique sur un échantillon représentatif de l’ensemble du territoire hexagonal. La commission exerce ici un contrôle systématique sur la méthode de sélection, les quotas et les redressements.
La projection en sièges (non contrôlée) : c’est un exercice de « traduction » du vote national en sièges parlementaires. La commission est formelle : elle n’exerce aucun contrôle sur ces chiffres et recommande la prudence.

Pourquoi ? Parce que la projection est tributaire de 577 réalités locales : offre politique spécifique, notoriété des candidats et, surtout, les configurations de seconds tours (triangulaires, désistements) qui dépendent du taux de participation. En somme, la loi encadre la « matière première » (l’intention de vote), mais laisse le « produit fini » (la projection en sièges) dans une zone grise méthodologique.

Le mirage des marges d’erreur

L’un des plus grands malentendus réside dans l’affichage des marges d’erreur, perçues à tort comme une mesure globale de la fiabilité. Depuis la loi de 2016, chaque première publication d’un sondage doit obligatoirement indiquer sa marge d’incertitude. Pourtant, la quasi-totalité des instituts français utilise la méthode des quotas, une technique sur laquelle la notion mathématique de marge d’erreur n’a techniquement « pas de sens », comme les instituts l’admettaient eux-mêmes devant le Sénat.

En « théorie des sondages », on distingue explicitement :

les sondages « aléatoires », où chaque individu de la population cible du sondage a une probabilité connue et non nulle de faire partie de l’échantillon de répondants, et on se sert de ces probabilités pour établir des marges d’erreur. Ici la « représentativité » est, par construction, indiscutable.
les sondages par « quotas » où il s’agit de contrôler que la structure de l’échantillon de répondants au sondage est similaire à celle de la population cible (essentiellement : sexe, âge, catégorie socioprofessionnelle, région de résidence et catégorie d’agglomération). Ici, la « représentativité » est seulement partiellement contrôlée, et la probabilité de chaque individu, d’appartenir à l’échantillon, est inconnue.

Pour comprendre l’origine de cette ambiguïté sur les marges d’erreur, il faut remonter au rapport n^o 54 du Sénat de 2010 qui a entériné un glissement sémantique majeur en estimant qu’il était « tout à fait possible » de considérer que les quotas génèrent des incertitudes « similaires » à la méthode aléatoire.

Or, Pascal Ardilly (inspecteur général de l’Insee et auteur de l’incontournable livre les Techniques de sondage), auditionné par le Sénat, précisait explicitement que faire l’hypothèse de marges d’erreur similaires pour les résultats d’un sondage, qu’il soit issu de la méthode des quotas ou de la méthode aléatoire, relevait d’une hypothèse très forte et non vérifiée d’absence de biais pour la méthode des quotas.

Un glissement analogue apparaît avec l’usage tronqué de la notion d’« échantillonnage contrôlé » attribuée à Jerzy Neyman (considéré comme l’un des fondateurs de la statistique moderne).

En omettant le mot « aléatoire » dans l’expression originelle « échantillonnage aléatoire contrôlé », on fait comme si le contrôle des quotas pouvait se substituer au hasard. Pourtant, scientifiquement, le mot « aléatoire » change tout : le « contrôlé » n’est pas une ambiance mais un hasard encadré par un plan de sélection rigoureux qui permet de construire mathématiquement des marges d’erreur.

C’est ce qui rend la notion de « représentativité » si exigeante : elle ne peut être revendiquée que si les marges d’erreur découlent scientifiquement du plan de sélection, ce que la méthode des quotas ne peut pas invoquer, en toute généralité. En reprenant une formulation de compromis – « les marges d’erreur… le cas échéant par référence à la méthode aléatoire » – la loi a figé des mots statistiques sans en figer les conditions de validité, laissant croire au public que la marge d’erreur affichée (en général, seulement lors de la première publication) est l’assurance tous risques d’un chiffre qui se veut destin.

Quand la convergence fabrique l’erreur collective

En science, il est souvent rassurant de constater que diverses études donnent des résultats « compatibles ». Malheureusement, il peut s’agir d’une hallucination collective !

En 2024, les principaux instituts de sondage dont les travaux étaient relayés dans les médias, donnaient, quelques jours avant le second tour, des projections très éloignées des résultats définitifs.

Ce phénomène est ce que j’appelle une « communauté de biais ». Lorsque plusieurs instituts utilisent des méthodes similaires et des redressements basés sur les mêmes hypothèses (comme le report de voix entre blocs), une erreur commune peut se produire. La stabilité des chiffres n’est alors pas un gage de fiabilité, mais le symptôme d’une confiance collective dans une erreur collective.

La présidentielle : un cadre « pur » qui n’élimine pas les biais

Dans le cadre de l’élection présidentielle, le dispositif semble pourtant idéal : on sort des incertitudes liées aux 577 scrutins locaux pour revenir au « sondage pur », tel que défini et strictement contrôlé par la commission. Cependant, il est impératif de comprendre que le contrôle réglementaire assure une transparence démocratique, mais ne garantit en rien une « vérité » statistique. Le malentendu principal réside dans la confusion entre la marge d’erreur théorique et la fiabilité globale.

Lors de l’élection présidentielle de 2012, par exemple, pour une intention de vote de 25 %, les marges d’erreur « théoriques » affichées étaient de l’ordre de 1,8 à 2,7 points (selon le nombre de répondants). Après analyse statistique des écarts des résultats de tous les candidats entre le scrutin et les dernières estimations, elles se situaient en réalité entre 4 et 6 points. Pour exemple, un candidat crédité de 25 % d’intention de vote était essentiellement prévu entre 23 % et 27 % alors que la précision sincère du sondage se situait entre 21 % et 29 %.

Ce décalage s’explique par la nature même de l’erreur totale, qui n’est pas qu’une simple variance (un flou lié à la taille de l’échantillon et sa variabilité), mais peut aussi être un biais (un décalage structurel). Ce biais est alimenté par la vie réelle des sondages : non-réponses, indécisions, modes de collecte ou ajustements méthodologiques plus ou moins assumés.

Lorsque tous les acteurs utilisent des méthodes de redressement et des panels « similaires » (électeurs recrutés essentiellement sur Internet et qui répondent régulièrement aux sondages qui leur sont soumis), ils peuvent produire une histoire cohérente… mais erronée dans la même direction.

Ce constat impose, il me semble, une véritable « hygiène du commentaire » : il faut cesser de considérer les « fourchettes » affichées (lorsqu’elles le sont) comme le curseur permettant de décider si une campagne « stagne », « bouge » ou « bascule ».

2027 : Vers une maturité de l’information électorale ?

À l’approche du double scrutin de 2027 – l’élection présidentielle suivie d’élections législatives – l’enjeu n’est pas seulement de savoir qui « gagnera », mais de définir comment nous acceptons d’être informés (voire influencés). La séquence de 2024 a servi de rappel brutal : un appareil « statistique », aussi sophistiqué soit-il, peut totalement manquer la physionomie d’une assemblée si l’on confond l’intention de vote nationale avec la projection locale en sièges.

Pour l’élection présidentielle de 2027, le défi sera de ne pas se laisser enfermer dans le confort d’un chiffre unique. Le cadre sera « pur » et contrôlé par la Commission des sondages, mais l’expérience de 2012 (et en réalité celle de bien d’autres) nous rappelle qu’une marge d’erreur « théorique » de deux points peut masquer une imprécision réelle de plus de cinq points une fois les biais potentiels intégrés. Il est temps que les médias et le public adoptent un « pacte de sobriété » : privilégier les fourchettes larges et admettre qu’à trois points (voire cinq points) d’écart, rien n’est clair.

Concernant les législatives qui suivront, la vigilance devra être redoublée sur les projections en sièges. Comme l’a souligné la Commission des sondages, ces exercices ne bénéficient d’aucun encadrement méthodologique strict et dépendent de paramètres locaux (offres politiques, désistements) qu’un sondage national ne peut saisir. Continuer à présenter ces projections comme des résultats scientifiques et fiables, c’est entretenir une « confiance collective dans une erreur collective ».

En définitive, mon propos appelle une alliance entre culture statistique et culture civique. La loi de 2016 a ouvert la « boîte noire » en imposant la transparence des notices. Il appartient désormais aux acteurs du débat public de transformer cette transparence en une véritable « hygiène du commentaire ».

Un chiffre n’est pas un destin, c’est une mesure ; et en démocratie, le destin n’appartient qu’au vote, une fois les hypothèses, les méthodes, les estimations et les projections remises à leur juste place.

Et pour les élections municipales ? Dans les grandes villes (Paris, Lyon, Marseille…), les instituts s’appuient le plus souvent sur leurs panels, puis filtrent les répondants pour ne retenir que les personnes inscrites sur les listes électorales de la commune (et, le cas échéant, de l’arrondissement/secteur). La méthode des quotas et les redressements restent les principaux outils statistiques mobilisés pour estimer les intentions de vote. Restons vigilants !

Léo Gerville-Réache ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d’une organisation qui pourrait tirer profit de cet article, et n’a déclaré aucune autre affiliation que son organisme de recherche.

– ref. Peut-on faire confiance aux sondages politiques ? Un statisticien nous donne les clés pour les décrypter – https://theconversation.com/peut-on-faire-confiance-aux-sondages-politiques-un-statisticien-nous-donne-les-cles-pour-les-decrypter-276475