Tout le monde ment c1J’ai lu et je recommande « Tout le monde ment … et vous aussi » de Seth Stephens-Davidovitz. Sous-titré « Internet et le big data : ce que nos recherches Google disent vraiment de nous ». Cet ouvrage est important quand on fait de l’intelligence économique.

Cet ouvrage m’intéressait au plus haut point. J’y ai trouvé deux choses :
- La preuve que la maitrise du big data est un outil d’une force considérable.
- La preuve que faire des requêtes Google nous rend transparents aux yeux du géant de Montain View. Et par effet de conséquence, j’y ai trouvé une justification complémentaire de mes craintes sur la toute-puissance de Google.


Voici un compte rendu en deux parties…


Introduction

Dès le départ nous sommes dans le bain. Seth Stephens-Davidovitz explique que Google est plus qu’un moteur de recherche. Il est dans certains cas un confident, à qui l’on ne pose pas de question, mais à qui on confie un sentiment ou un secret : « je hais mon patron » « j’ai trop bu » « papa m’a tapé ». Oui la dernière requête est moche. Et il y en a d’autres…

L’auteur introduit le sujet avec la campagne de Trump face à Clinton. Il explique que la masse de données détenue par Google pouvait permettre de dire avec une précision infiniment plus fiable que les sondages qui serait le prochain président américain. Les internautes qui recherchaient « Trump Clinton polls » ou « Trump Clinton debate » ont dévoilé leur intention profonde de voter Trump, même s’ils hésitaient encore au moment où ils ont écrit cette requête. Car ces données issues de Google de mentent pas (alors qu’il est facile de mentir lors d’un sondage). Et l’auteur a déterminé que statistiquement, le nom de celui pour qui l’on va voter est placé en premier dans la requête. Google sait de vous des choses que vous ne savez même pas sur vous-même.

Seth Stephens-Davidovitz explique son positionnement d’entrée : « Je suis aujourd’hui convaincu que les recherches Google constituent le jeu de données le plus important sur le psychisme humain ». Et il va le démontrer au cours des quelque 300 pages.
- Il y a l’effet masse : « Au cours d’une journée, en cette première partie du XXIème siècle, les humains génèrent en moyenne 2,5 milliards de milliards d’octets de données ».
- Et il y a la capacité d’analyse de Google : « Les recherches en ligne, je l’affirme, sont les plus révélatrices des données » (p108)
Après le microscope qui a révolutionné la médecine, le télescope qui a révolutionné l’observation de l’univers, vient le datascope dont les « analystes des données » sont les maîtres.

Big data ou small data


Seth Stephens-Davidovitz explique dans cette partie que l’intuition se base généralement sur un petit jeu de données (small data). Même l’expérience d’une vie entière est un tout petit jeu de données. Le big data permet de faire sortir des vérités bien au-delà de toutes intuitions.

Les pouvoirs du big data


Le big data a quatre pouvoirs
- Il nous offre de nouveaux jeux de données.
- Il nous fournit des données sincères.
- Il nous permet de zoomer sur de petits sous-ensembles.
- Il nous permet de rechercher non plus des corrélations mais des causalités.
Explications :

Le big data nous offre de nouveaux jeux de données.
- Ainsi Seth Stephens-Davidovitz explique qu’une bonne manière d’estimer les taux de chômage réels est de mesurer les requêtes portant sur un dérivatif … par exemple le fait de rechercher avec Google du porno (oups). En effet, un chômeur seul chez lui sera plus enclin à faire ce type de recherche. Des différentes variables analysées, explique l’auteur, cette dernière est certainement une des plus pertinentes. Et bien, cela est un nouveau jeu de données pour analyser le chômage réel d’une ville, région, ou pays !
- Par des requêtes de tonalité, l’auteur explique qu’il est possible « d’estimer chaque jour le bonheur national brut d’un pays ».
- Par l’analyse des mots-clés d’un premier rendez-vous amoureux entre deux personnes, il peut prédire avec une bonne exactitude si les personnes vont se revoir.
- L’auteur se réjouit que les données soient maintenant conservées et utilisables par les ordinateurs. On peut se réjouir pour lui. Et surtout pour Google qui est le grand gagnant de toute cette affaire.

Le big data nous fournit des données sincères.
- Les corps sont des données. Les mots sont des données. Les clics, les liens, les fautes de frappe … Tout est « donnée » et peut permettre de comprendre la réalité sans biais.
- Il teste par exemple sur Ngram « the United States are » et « the United States is » et cela lui permet d’estimer quand le sentiment d’unité nationale a été supérieur au sentiment de pluralité des Etats.
- Le paragraphe 4 est justement intitulé « le sérum de vérité numérique ». Seth Stephens-Davidovitz démontre que les sondages sont faux car l’interviewé tombe sous ce que l’on appelle « le biais de désidérabilité sociale ». Plus les conditions d’interrogation sont impersonnelles, moins les résultats sont pervertis par ce biais. Or quoi de plus impersonnel qu’un écran ! Et il en rajoute « Même si vous mentez à vous-même, Google peut néanmoins connaitre votre vérité » p119
- Il calcule le pourcentage « réel » d’homosexuel aux États-Unis. Les chiffrages des recherches pornographiques homosexuelles effectuées par des hommes est d’environ 5%.
- Google est un confessionnal numérique … Sinon pourquoi « l’une des questions les plus communément posées à Google à propos des parties génitales des hommes est « Quelle est la taille de mon pénis ? » p134. On trouve aussi « j’aime les nichons de ma copine » Et l’auteur se demande avec humour « On voit mal ce que les hommes qui effectuent cette recherche espèrent trouver sur Google » p136
- La partie qui traite de « La vérité sur la haine et les préjugés » est aussi passionnante que dérangeante. « L’omniprésence de ces insultes raciales est effarante et bouscule certaines idées actuelles sur le racisme ».
- La partie intitulée « La vérité sur la maltraitance infantile et l’avortement » est encore plus poignante. Il démontre grâce à la fluctuation des requêtes « maman me bat » ou « papa m’a frappé » que les statistiques officielles sur la maltraitance infantile peuvent être loin du compte.

C’est choquant, mais il faut le lire pour comprendre à quel point Google est un nouveau démiurge.
La suite demain …

Jérôme Bondu