Google Flu ou les limites du Big data

Le Big data, ou data masse, est l’un des derniers eldorados à la mode de l’informatique. Il s’agit de répertorier, d’amasser, de stocker et d’analyser un ensemble gigantesque de données pour en tirer des perspectives inatteignables jusqu’à présent, que ce soit commercialement (découvrir les tendances qui guident les consommateurs), en météorologie (changement climatique) ou en médecine.

C’est une véritable aubaine pour les vendeurs de matériel (capacités de traitement, stockage), de logiciels (nouveaux types de bases de données, nouveaux outils d’analyses) et les consultants (nouveaux domaines d’expertise).

Aujourd’hui, un article de chercheurs de Harvard, paru dans le magazine américain Science, illustre les limites du Big data.

En 2009, Google avait annoncé Google Flu Trends dans la célèbre revue Nature. L’entreprise affirmait pouvoir localiser les foyers d’épidémies de grippe, et leur importance, avec seulement un jour de retard, en analysant les millions de requêtes journalières dans son moteur de recherche de personnes souhaitant se soigner de la grippe.

Ce programme, Google Flu Trend, figure emblématique du Big data, devait prédire les rapports du CDC (Centre for Disease Control and Prevention, Centre pour le contrôle et la prévention des maladies) qui fonde ses analyses sur les rapports de laboratoires partout aux États-Unis.

Hors en février 2013, GFT fut le gros titre de la même revue nature, mais probablement pas pour les raisons que ses créateurs espéraient. GFT prévoyait deux fois plus de visites aux médecins pour la grippe que ne le prévoyait la CDC.

En fait, depuis 2011, les prédictions de GFT sont systématiquement fausses (100 des 108 semaines). Déjà en 2009, GTF avait fait l’impasse sur la pandémie de grippe non saisonnière A-H1N1.

La première raison est simple : les gens avec un nez qui coule pensent tous qu’ils ont la grippe. Hors d’après les tests, moins de 9 % d’eux ont vraiment la grippe.

Une des premières règles de statistique a donc été oubliée : il ne suffit pas d’avoir beaucoup de données, encore faut-il s’assurer de leur qualité.

C’est ce que Lazer appelle l’orgueil démesuré du Big data, qui pense pouvoir se substituer aux méthodes traditionnelles de collecte et d’analyse de données, alors qu’elle devrait être complémentaire.

La base de l’analyse est souvent oubliée.  Les difficultés de mesure, de validité et de fiabilité sont trop souvent écartées.

Une autre erreur répandue : le surajustement. L’algorithme utilisé cherchait les meilleures correspondances parmi les 50 millions de termes de recherche pour les classifier en 1152 points.

« Ils ont surajusté les données. Ils avaient 50 millions de termes de recherche, et ils en ont trouvés quelques uns qui se trouvaient avoir la même fréquence que la ‘grippe’ au cours de la décennie précédente, mais la vérité était qu’ils obtenaient des termes idiosyncratiques dont la fréquence maximale correspondait à la fréquence maximale de la grippe en hiver, mais qui ne dépendait pas du fait que les gens aient vraiment la grippe ou non » a commenté Lazer dans un podcast sur l’article.

La fiabilité du système n’était pas garantie, Google ajustant continuellement l’algorithme de son moteur de recherche, ce qui a eu des répercussions pour GFT.

Certaines hypothèses du système n’ont pas été remises en cause alors qu’elles étaient invalides. Par exemple, la supposition qu’il y avait une relation stable entre les termes de recherches et l’incidence de la grippe.

Au final, si le potentiel théorique du Big data, n’est pas remis en cause, les auteurs retiennent quatre leçons :

  • Le système doit être transparent et réplicable ;
  • Utiliser le Big data pour comprendre l’inconnu. Dans le cas de la grippe, le modèle décalé du CDC est tellement fiable que le Big data ne peut apporter de contribution significative ;
  • Étudier l’algorithme. Que ce soit Twitter, Facebook ou Google, les systèmes changent au cours du temps. Une analyse poussée de ces changements est nécessaire pour séparer les vraies tendances des phénomènes éphémères ;
  • La taille ne suffit pas. Le Big data offre des perspectives formidables pour la compréhension des interactions humaines avec de riches dynamiques temporelles et géographiques ; Le Small data en retour offre des informations qui ne sont pas présentes dans le Big data. Et Internet facilite la collecte de ces informations et l’expérimentation. Il faut donc s’intéresser à toutes les données.