Lancement du service géré de traitement de données Cloud Dataflow

Si la star du discours inaugural de la conférence Google I/O 2014 était la préversion « L » d’Android, Urs Hölzle a présenté un nouveau service service géré de traitement de données Cloud Dataflow, qui devrait intéresser les entreprises qui se heurtent aux limitations de MapReduce.

 

Dépasser les limitations de MapReduce

Le vice-président des infrastructures de Google a présenté Cloud Dataflow comme le successeur de MapReduce, un patron d’architecture de développement informatique, inventé lui aussi par Google, dans lequel sont effectués des calculs parallèles, et souvent distribués, de données potentiellement très volumineuses.

Mais MapReduce n’était pas conçue pour du Big Data à l’échelle d’Internet, et Google devait trouver une autre solution pour ses propres besoins.

Cloud Dataflow est basée sur l’outil FlumeJava, un outil de gestion chaînes de traitements, et sur MillWheel, un patron de traitement de flux de données.

C’est un service entièrement géré (Application as Service) qui automatise l’optimisation, le déploiement, la planification et le contrôle de la solution et de l’infrastructure sous-jacente, dont le client n’a pas à s’occuper.

Ce que MapReduce était au traitement à une étape, Dataflow ambitionne de l’être pour des chaînes de traitements entières.

Le code pour traiter les données par lots, ou pour les traiter en flux continus, est le même. Il pourra être écrit dans n’importe quel langage, même si le premier langage supporté par le SDK est Java.

 

Démonstration d’analyse de sentiments des tweets de la coupe du monde

La démonstration de la Google I/O consistait en une analyse des tweets lors de la coupe du monde, qui arrivaient en flux dans le système, et était comparé à des données historiques pour détecter les anomalies. Dans le cas présenté, l’analyste détectait une anomale: alors qu’une équipe marquait un but, ses supporteurs étaient mécontents. Un simple clique sur la courbe donne déjà une idée de la raison, et une simple requête, qui retourne les tweets de ces instants le confirme: le but est la conséquence d’un penalty très controversé.

Lecture
Lecture
Transformation des données
Transformation des données
Analyse des données
Analyse des données
Cockpit
Cockpit

 

La source de l'anomalie
La source de l’anomalie

 

Concurrence

Cloud Dataflow est la réponse de Google à l’Elastic MapReduce d’Amazon, et Kinesis, son service d’ingestion de données en flux continus, et de la solution HDInsight de Microsoft Azure, une version de MapReduce qui tournerait 100 fois plus vite que la précédente.