Ce que les données numériques disent de nous et du monde

Source: The Conversation – in French – By Emmanuel Didier, Sociologue, directeur de recherche CNRS, École normale supérieure (ENS) – PSL

Loin de permettre l’omniscience quant à la vie des individus, les données numériques n’offrent qu’un point de vue sur le social. Elles ressemblent en cela aux méthodes statistiques qui les ont précédées, et s’inscrivent dans une histoire longue de la collecte de connaissances sur les populations.


Les traces que nous laissons lorsque nous naviguons sur Internet – nos données numériques – disent beaucoup de nous. Nous avons même souvent l’impression que les spécialistes de la science des données, en les récupérant et en les assemblant, peuvent finir par tout savoir de nous. Cette prétention à l’omniscience de leur part peut être effrayante pour certains, ou au contraire fascinante pour d’autres.

Pourtant, la science des données n’offre qu’un point de vue sur le social, et comme tout point de vue, elle laisse aussi un grand nombre de choses hors champ. Mais alors, que dévoile la science des données ? Qu’est-ce qui lui échappe ?

Une bonne méthode pour répondre à cette question est de comparer la science des données à d’autres méthodes statistiques plus anciennes dont elle découle et qui, comme elle, donnaient en leur temps un point de vue sur la population. La définition et la comparaison de ces méthodes permet de définir ce que chacune voit, et ce qui lui échappe.

Construire l’État par le recensement

Le recensement de la population est vieux comme la Bible. Dès le livre des Nombres, Dieu commande à Moïse : « Faites le dénombrement de toute la communauté des fils d’Israël par clans, par familles, en comptant nommément tous les hommes, un par un. Tous ceux qui ont vingt ans et plus, ceux qui, en Israël, sont aptes à rejoindre l’armée, toi et Aaron, vous les recenserez par formations de combat. » (NB 1, 2-3). Le recensement sert ici à construire l’armée d’un collectif. Pour le dire de façon moins belliqueuse et plus contemporaine, il participe à la construction de la force de l’État.

L’usage purement militaire est devenu très vite aussi fiscal, le recensement servant à préparer l’impôt, qui n’est qu’un autre aspect de la force de l’État. La Bible donne également les éléments techniques minimaux de cette opération : pour connaître ses propres forces, l’État définit une communauté, et investit une entité spécifique (ici Moïse et Aaron ; aujourd’hui les instituts nationaux de statistique) de la tâche de compter, exhaustivement et sans répétition, les individus membres de cette communauté. Ainsi, le recensement permet de mesurer la force d’une nation, et de construire la souveraineté nationale.

Cela n’empêche pas certains acteurs de biaiser le décompte – à chaque méthode statistique sa forme de déviance. Les histoires de fermes et de fermiers tentant d’échapper au recensement (par crainte de l’impôt ou de la conscription) sont nombreuses ; de même l’entité qui décompte peut fictivement favoriser tel ou tel sous-ensemble contre un autre. Ainsi, le président américain Donald Trump a tenté lors de son premier mandat d’interdire de compter les étrangers en situation irrégulière lors du recensement de 2020. Ce biais statistique aurait renforcé les états républicains où les étrangers sont peu nombreux, et affaibli les états démocrates, où davantage d’entre eux sont présents, le nombre de représentants à la Chambre basse du Congrès américain dépendant du poids démographique d’un état donné. La Cour suprême avait fini par s’opposer à cette mesure.

La précision du recensement engendre par ailleurs une très grande lourdeur dans son organisation. Pour obtenir des données sur des évolutions rapides, comme celles des volumes de marchandises échangés annuellement sur un marché par exemple, il est ainsi complètement inopérant.

Les « correspondants volontaires », les yeux de l’État sur l’économie

Au XIXe siècle, la méthode des correspondants volontaires a été mise au point et utilisée dans le monde entier pour stabiliser les marchés, d’abord agricoles – ceux-ci étant à l’époque les plus importants. Cette méthode reposait sur le constat que les conditions concrètes des travailleurs engendraient ce que l’on appelle aujourd’hui une asymétrie d’information. En effet, le travail de production du paysan l’attache à sa ferme dans laquelle il passe le plus clair de son temps. Au contraire, l’acheteur de produits agricoles se déplace d’exploitation en exploitation pour récupérer les produits. De ce fait, le second se construit une vision bien plus générale de l’état de la production que le premier, qu’il peut mobiliser à son avantage dans les négociations avec les agriculteurs.

Pour que le marché soit plus équitable, il devient ainsi nécessaire de calculer une estimation objective des productions, les prix dépendant des volumes mis en vente. La plupart des États occidentaux ont pris sur eux depuis la fin du XIXe siècle de produire de telles données, qui participent d’une conception libérale de l’économie.

La méthode consistait à désigner des « correspondants volontaires », souvent des fermiers, répartis sur tout le territoire, qui menaient eux-mêmes des enquêtes locales sur la production auprès d’autres fermiers désireux de partager leurs données. Ces correspondants envoyaient leurs informations au gouvernement central, qui les agrégeaient et les rendaient publiques. L’exigence d’exhaustivité est ici remplacée par la bonne volonté des participants, qui ne sont pas représentatifs mais plutôt des « représentants » des autres agriculteurs, motivés à défendre les intérêts de leur profession à l’aide des informations partagées. Cette méthode permet à l’État de « voir » les marchés.

La déviance repose ici sur le fait que les participants sont incités à sous-déclarer leur production : cela tend en effet à faire augmenter les prix – un biais que doit nécessairement redresser l’État, qui agit alors en commissaire-priseur central, fixant les prix de référence.

Cette méthode a perdu son prestige lors de la grande dépression des années 1930. Les longues files de chômeurs, les fermes abandonnées, les suicides de banquiers montraient bien que la seule stabilisation des marchés était inefficace pour retrouver le bon fonctionnement de l’économie. La clairvoyance du New Deal aux États-Unis fut de comprendre qu’il fallait que l’État intervienne plus directement dans l’économie, en offrant du travail aux ouvriers et employés. L’objectif était d’empêcher que ceux-ci ne se laissent dépérir, tant économiquement que moralement, selon la conception du travail majoritaire à l’époque. Mais comment savoir quel projet lancer pour obtenir un impact maximal ?

Quand les sondages guident le bras de l’État

C’est pour répondre à cette question qu’ont été développés les sondages représentatifs. Cette méthode permet d’identifier rapidement et sur des territoires flexibles des corrélations entre ce que l’on appelle des « variables explicatives » et des « variables à expliquer ». Pour pouvoir collecter de l’information avec encore plus de souplesse, les statisticiens ont inventé le principe des échantillons représentatifs : de petite taille, ceux-ci « représentent » cependant en proportion la population entière, dans ses caractéristiques socio-économiques. L’exemple paradigmatique est celui de la mesure du chômage, qui aujourd’hui encore est effectuée de cette façon.

Ici, les individus étudiés dans l’échantillon ne sont pas pensés comme des agents actifs luttant pour se défendre, à l’image de ce qui pouvait se produire dans la méthode des « correspondants volontaires », mais comme des sujets passifs, subissant les forces adverses de la société et bénéficiant des politiques de l’État-providence. Ce que permettent de voir les sondages, ce sont ainsi les déterminants des problèmes socio-économiques – qui échappent aux deux méthodes précédentes.

Cette méthode peut également être pervertie par une déviance : vue à travers les sondages, la population est réduite à une masse susceptible d’être manipulée, ce que dénonçait le sociologue C. Wright Mills. Cette accusation est d’ailleurs toujours portée à l’encontre des sondages préélectoraux, supposés « orienter » le résultat du vote.

Les données numériques, un portrait fidèle des individus ?

Qu’en est-il des données numériques ? Que capturent-elles exactement ? Comme elles sont beaucoup plus récentes, il est plus difficile de l’identifier. Pourtant, on peut déjà lister ce qui leur échappe. Notons d’abord que ces données ne relèvent pas du champ de l’État, comme les précédentes méthodes, mais revêtent un caractère global, puisqu’elles dépassent aisément les frontières. Elles ne sont pas non plus exhaustives, au sens où l’on ne sait pas exactement qui intervient sur la toile et qui « s’abstient ».

On peut aller plus loin, en posant que les données numériques ne sont habituellement pas représentatives de quelque entité que ce soit puisqu’en général il n’y a ni sélection par tirage au sort des participants, ni entité commune dont ils feraient partie et qu’ils pourraient représenter. Les caractéristiques techniques des données numériques les rendent donc par essence incapables de rien voir exhaustivement, ni même de façon représentative.

Si l’on prend l’exemple des réseaux sociaux, certaines personnes peuvent avoir plusieurs comptes, d’autres être complètement absentes, tandis qu’une proportion des comptes ne représente pas des individus, mais des entreprises ou des administrations, par exemple. Lorsqu’on étudie des données numériques, on se trouve ainsi souvent devant de très grosses bases de données, sans savoir à quoi elles se rapportent exactement. Autrement dit, contrairement aux autres méthodes, on ne sait pas ce qu’on mesure avec ces données : elles constituent simplement une agglomération de points d’information sans « question » à laquelle on chercherait à répondre.

Les données numériques impliquent certes, comme dans le cas des correspondants volontaires, un certain degré d’engagement dans la production des données, puisqu’elles résultent de l’activité des utilisateurs. Mais ceux-ci ne souhaitent pas toujours que leurs données soient utilisées, et surtout pas contre leurs intérêts, comme ce fut le cas lors du scandale Cambridge Analytica où les données numériques ont été exploitées pour manipuler des électeurs.

Il n’y a enfin pas d’instance de contrôle de la véracité des déclarations individuelles sur les réseaux sociaux, comparable au rôle de l’administration publique dans les réseaux de correspondants volontaires ; ceci participe aux vagues de fake news auxquelles nous sommes maintenant tristement habitués.

Cela dit, comment synthétiser les caractéristiques de ce que les données permettent d’observer ? Certains chercheurs, comme le sociologue Dominique Boullier, affirment que les données numériques capturent tout ce qui se propage dans la société, comme les informations ou les rumeurs. D’autres, comme Christian Borch, insistent sur le fait que les données illustrent avant tout la tension entre le désir mimétique et le désir anti-mimétique des individus qui agissent sur les réseaux. Par cette opposition de deux désirs concurrents, le sociologue entend que chacun veut à la fois participer au grand flux des échanges numériques, donc en ce sens faire comme tout le monde, tout en se démarquant dans cette mer d’identités.

Ces deux auteurs ont en commun de retourner aux travaux fondateurs du sociologue du XIXᵉ siècle Gabriel Tarde, qui faisait de l’imitation le moteur de la société. Tarde ne tranchait cependant pas la question de savoir si cette « imitation » était une force autonome, opérant au-delà ou en deçà des individus, ou s’il s’agissait tout simplement d’une attitude humaine partagée. Une relecture comparative de cet auteur semble donc nécessaire pour mettre d’accord les deux conceptions opposées, mais sans doute réconciliables, de la part du réel que capturent les données numériques.

The Conversation

Emmanuel Didier a bénéficié d’une aide de l’État gérée par l’Agence Nationale de la Recherche au titre de France 2030 portant la référence ANR-22-PESN-0004

ref. Ce que les données numériques disent de nous et du monde – https://theconversation.com/ce-que-les-donnees-numeriques-disent-de-nous-et-du-monde-262574