Les données massives (big data) agissent comme un nouveau type de microscope qui permet de détecter des tendances inobservées jusqu’ici, et pourraient transformer la façon dont on traite les maladies, gère les villes ou avance la recherche.

Dans la sphère privée, Elles croissent à vive allure actuellement avec un nombre considérable de données personnelles issues de nouveaux capteurs, comme la géolocalisation d’une personne par smartphone, les trajets automobiles par télémétrie, les transactions par cartes de crédit ou l’espionnage généralisé de l’historique de navigation Web.

Une étude du MIT, dirigée par le mathématicien Yves-Alexandre de Montjoye, et qui vient de paraître dans le magazine Science, Unique in the shopping mall: On the reidentifiability of credit card metadata, montre le danger pour la vie privée des données massives.

Une grande banque a fourni à son équipe une liste anonymisée des transactions par cartes de crédit de plus d’un million de personnes dans dix mille commerces sur trois mois : suppression des noms, des numéros de comptes et de toute information facilement identifiable.

Les chercheurs ont alors déterminé le risque de ré-identification à l’aide de données extérieures, ce que l’on appelle attaque par corrélation. Imaginons par exemple qu’on cherche toutes les transactions d’un Nicolas S. dans cette liste. Supposons qu’il est allé manger au Fouquet’s le jour j et qu’il a acheté une montre dans une boutique Rolex le jour j+1. Si l’analyse des données montre qu’il existe une seule personne ayant fréquenté ces deux endroits durant ces deux jours, alors on a identifié cette personne et on peut en déduire toutes ses autres transactions dans l’ensemble des données.

Les auteurs de l’étude ont montré que l’unicité, qui est le risque de ré-identification à l’aide de n informations externes sur le sujet, est très grande pour les informations financières. Il suffit de quatre informations spatio-temporelles pour ré-identifier 90 % des individus et connaître toutes leurs transactions.

Ils montrent que l’utilisation des prix des transactions en plus des données accroît le risque d’unicité de 22 %. Et qu’il n’est pas suffisant de rendre les informations plus vagues, comme la quinzaine au cours de laquelle un achat a été effectué plutôt que le jour de l’achat, ou la géolocalisation approximative d’un commerce, pour rendre impossible la ré-identification. Il suffira de connaître quelques données externes de plus : avec dix points spatio-temporels, on pourra ré-identifier 80 % des gens.

Et la connaissance de certaines données anonymisées, comme le sexe ou le niveau de rémunération, facilite bien plus ce travail.

Montjoye montre ainsi que les lois sur la protection des données personnelles américaines comme européennes sont insuffisantes pour protéger les données personnelles. Ce qui est d’autant plus dangereux qu’il est de plus en plus souvent obligatoire pour les entreprises de donner un accès public à certaines données massives, et que d’autres les offrent pour la recherche.

Il est donc nécessaire de prendre des précautions supplémentaires, comme le développement des mathématiques de la differencial privacy, et d’héberger des données massives protégées par un gardien logiciel qui ne donnerait pas accès aux entrées individuelles, mais permettrait aux chercheurs de poser des questions statistiques sur les données.