Google, le nouvel oracle (de Delphes)?

A l’approche d’élections ou de votations, il est courant de voir ou d’entendre des résultats de sondages. Ceux-ci tentent de nous donner une vue à un instant donné sur l’opinion global de la population concernée en ayant posé une ou plusieurs questions à un échantillon représentatif de cette même population.

Cependant, il est légitime de se demander si cette “photo” de l’opinion à un instant t est fiable. Difficile de répondre à cette question mais des grands événements politiques comme le Brexit ou l’élection présidentielle américaine ont clairement montré les limites du système des sondages tels qu’ils sont pratiqués. En effet, dans ces deux cas, la plupart des sondages se sont révélés erronés. 

Comment alors proposer d’autres moyens de mesurer dans quel sens penche l’opinion de la population? Il a surgit alors l’idée de vérifier si les statistiques publiées par le service Google Trends pouvait être un indicateur fiable.

Comme les résultats des sondages participent eux-mêmes à forger l’opinion de ceux qui les intègrent, peut-on dire qu’ils nous mentent?


Les sondages, explications pour les non-initiés

sondage-remunere-490x476La définition officielle nous dit: “Un sondage est une enquête statistique d’opinion basée sur un échantillon représentatif”. 

Les sondages sont effectués par des instituts de sondages. Ces derniers procèdent le plus souvent en interrogeant les personnes sélectionnées par téléphone. Il est également possible de faire un sondage en envoyant un formulaire par courrier postal ou email avec le désavantage qu’il n’est pas possible de donner des renseignements supplémentaires par oral.

Un sondage, kesako exactement?

Les méthodes de sondages

Il y a plusieurs méthodes pour réaliser des sondages:

Les quotas

Le principe est d’interroger des personnes qui ont les mêmes caractéristiques que l’ensemble de la population. Afin d’obtenir une représentation qui se rapproche le plus de la population sondée, les critères utilisés sont généralement l’âge, le sexe, le niveau social, le lieu de domicile, etc…. Plus les personnes interrogées sont nombreuses plus le résultat du sondage est fiable mais plus le coût est élevé. Un échantillon de 1’000 personnes donne déjà une bonne représentation. 

La méthode aléatoire

Les personnes interrogées sont choisies aléatoirement par tirage au sort. Cette méthode n’est pratiquement pas utilisée car elle demande de contacter un plus grand nombre de personnes et est par conséquent plus chère à mettre en œuvre. Une explication complète de la méthode aléatoire est disponible ici.

Le redressement des résultats

A noter également que les résultats des sondages sont “redressés” avant d’être publiés. S’il existe des sondages précédents sur le même sujet ou un sujet suffisamment proche, il a été possible de voir l’écart entre le sondage et les résultats réels. Ceci permet, si cet écart s’est répété à plusieurs reprises d’appliquer une correction car vraisemblablement cet écart sera à nouveau présent.

La marge d’erreur

Les résultats d’un sondage reflètent l’avis des participants et ne sont pas, par essence, exactement similaires aux résultats finaux. Les instituts de sondage indiquent, avec les résultats, une marge d’erreur. Il s’agit de l’écart possible, vers le haut et vers le bas, entre les résultats du sondage et les résultats finaux.

Cette marge d’erreur est calculée par une formule mathématique et dépend, entre autre, du nombre de participants au sondage. Plus d’information sur le calcul de la marge d’erreur dans cette article sur wikipedia.

Pouvons-nous faire confiance aux sondages?

Bien-sûr, les instituts de sondages sérieux s’efforcent de fournir des résultats le plus précis possible. Cependant, de récents exemples montrent qu’il n’est pas toujours aisé, malgré l’application d’une méthode rigoureuse de fournir des résultats qui se vérifieront après l’élection ou la votation. En effet, beaucoup de facteurs peuvent influencer le sondage comme des questions biaisées, des personnes qui ne veulent pas répondre, des personnes qui mentent, l’échantillon qui n’est pas entièrement représentatif… 


Google Trends

google-trends-logoD’après Wikipedia, Google Trends est un outil issu de Google Labs permettant de connaître la fréquence à laquelle un terme a été tapé dans le moteur de recherche Google, avec la possibilité de visualiser ces données par région et par langue. Google enregistre les statistiques depuis l’année 2004.

Voici un exemple, qui n’est pas directement en rapport avec le propos de cet article, mais facile à comprendre. Il est possible avec Google Trends (GT) de voir la fréquence des recherches du terme “Paléo” (Paléo Festival de Nyon) en suisse en 2016.

1_paleo

Le graphique issue de Google Trends montre qu’à deux reprises dans l’année 2016 le terme « Paléo » a été beaucoup utilisé dans les recherches faites par les internautes.

Il est intéressant de voir que les deux “pics” observés surviennent lorsque le programme a été dévoilé (12 avril 2016) et durant le festival lui-même du 19 au 24 juillet 2016. Il est également possible de voir cette statistique projetée sur une carte de géographie et également d’autres renseignements associées. La vue complète de ce terme dans GT est disponible ici.

Le service GT permet également de visualiser les tendances de recherche pour plusieurs termes (max. 5 termes). Nous pouvons dès lors les comparer sur les mêmes graphiques.

Dans l’exemple ci-dessous, le comparatif du nombre de recherches sur le terme François Fillon en bleu et Benoît Hamon en rouge, deux candidats à l’élection présidentielle française.

2_fillon_hamon

La comparaison entre les recherches des termes « fillon » (en bleu) et « hamon » (en rouge) depuis le début janvier 2017.

Il est intéressant de se poser la question de la corrélation entre les tendances de recherche des internautes sur le moteur de recherche de Google et le résultat final d’une élection ou d’une votation.


Le service Google Trends est-il vraiment plus fiable?

Est-il possible d’affirmer que les résultats publiés par GT sont plus fiables que ceux émis par les instituts de sondages traditionnels pour prédire le résultat final? La réponse est bien sûr nuancée.

L’exemple de la dernière élection américaine

Lors de cette élection qui mettait aux prises Hillary Clinton et Donald Trump, les sondages ont quasiment toujours donné Mme Clinton gagnante. Il est à relevé que les sondages étaient très serrés et plaçaient les deux candidats côte à côte à l’intérieur de la marge d’erreur. Le jour de l’élection est le 8 novembre 2016.

La vision donnée par un sondage…

3_sondage_clinton_trump

Un sondage paru le 18 octobre 2016 donne Hillary Clinton devant Donald Trump dans les intentions de vote.

…et celle de Google Trends

4_trends_clinton_trump

A la même période, les tendances de recherche montre que les Américains font plus de recherches avec le terme « trump » (courbe bleu) qu’avec le terme « clinton » (courbe rouge)

Si l’on accorde du crédit aux statistiques de Google Trends, nous pouvons affirmés que GT avait anticipé la victoire de Donald Trump. Cela est bien sûr discutable si l’on tient compte que M. Trump a gagné selon le principe des grands électeurs mais que Mme Clinton a remporté plus de voix de la population.

L’exemple du Brexit

Le cas du Brexit est différent car il s’agit d’une votation et non d’une élection. Il était demandé aux Britanniques de se prononcer pour ou contre le maintient du Royaume Uni dans l’Union Européenne. Le jour du scrutin est le 23 juin 2016.

Dans cet exemple, il n’y a pas de candidats à comparer. Il s’agit plutôt de tirer une tendance de vote par rapport aux termes rechercher dans la moteur de recherche de Google. Le choix des termes de recherche à comparer est bien-sûr important pour voir la tendance se dessiner.

Voyons d’abord les prévisions obtenues par sondage.

5_sondage_brexit

La question de la sortie du Royaume-Uni de l’Union Européenne n’est pas nouvelle. La tenue successive de sondages montre, depuis 2010, que les camps du « remain » (rester de l’EU) et du « leave » (quitter l’EU) sont au coude à coude. Cependant, à la veille du scrutin, les pro-européens sont en tête dans les sondages (courbe bleu)

Et maintenant la statistique donnée par le service Google Trends

6_trends_brexit

Les tendances de recherche pour les expressions « Leave EU » (courbe rouge) et « Stay in EU » (courbe bleu) montrent que les Britanniques ont été beaucoup plus curieux à propos de la sortie de l’EU durant le mois de juin 2016.

Encore une fois, il semble que le service Google Trends s’en sort mieux que les sondages pour prédire le résultat qui est sortit des urnes.

Pour les intéressés, à voir une explication plus que scientifique dans l’émission 26’ 


Les tendances des réseaux sociaux

Le Social Media Lab de l’EPFL ou l’Université de Neuchâtel (UNINE) ont, selon deux études distinctes, prédit la victoire de Donald Trump lors de l’élection présidentielle américaine de 2016.

7_reseauxsociaux

Ce graphique, proposé par une équipe d’informaticiens de l’Université de Neuchâtel, montre que le nom « Trump » revient plus souvent dans les recherches Google et sur les principaux réseaux sociaux que les noms de ses concurrents.

Ces deux équipes de scientifiques ont tenu comptes, non seulement des occurrences de certains termes de recherche dans le moteur de Google mais également de l’apparition de ces termes sur le réseaux sociaux.

Il semble que cette méthode qui combine plusieurs sources digitales soient, à l’instar de Google Trends, également capable de fournir une bonne indication sur les résultats du scrutin.


Conclusion

Les deux exemples présentés indiquent que les tendances de recherche effectuées sur le moteur de Google, ou plus généralement sur le web, seraient mieux à même de “prédire” les issues de décisions populaires.

D’une part les sondages, effectués sur un échantillon représentatif de la population, donnent des résultats certes incorrect mais tout de même à l’intérieur de la marge d’erreur admise. De ce fait, pouvons-nous dire qu’ils nous mentent? Je ne pense pas.

D’autre part, le nombre de recherches pour un terme sur le moteur de Google ou le nombre d’occurrence de certains termes sur les réseaux sociaux semblent prédire le résultat final.

Pouvons-nous dire qu’en réalité les tendances de Google Trends sont similaires à la méthode des sondages aléatoires. En effet, le très grand nombre de personnes qui effectuent des recherches sur le moteur le plus utilisé au monde peut être assimilé à un sondage mené avec la méthode aléatoire.

Par conséquent, l’analyse des recherches ou des occurrences de termes sur le web semble une très bonne méthode, à moindre coup et à condition que le nombre de personnes à l’origine de ces recherches soient suffisamment nombreuses, de déterminer le résultat d’une élection ou d’une votation.


Sources

  1. http://bigbrowser.blog.lemonde.fr/2016/03/02/google-peut-il-predire-les-resultats-des-primaires-aux-etats-unis/
  2. https://www.anthedesign.fr/referencement/google-trends/
  3. http://blog.neocamino.com/faire-un-sondage-efficace-les-bonnes-pratiques/
  4. http://www.liberation.fr/evenement/2007/02/27/comment-realise-t-on-un-sondage_86131
  5. https://www.letemps.ch/monde/2016/11/03/lepfl-donne-hillary-clinton-gagnante-linstant
  6. http://mashable.com/2016/06/22/google-twitter-brexit-eu-referendum/#Wp78x1d0qSqa

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s