Données massives: IBM s’aligne sur Apache Spark

À l’occasion du Spark Summit 2015, qui se tient du 15 au 17 juin à San Francisco, IBM vient d’annoncer son soutien et son alignement sur la technologie de données massives Apache Spark.

Apache Spark

Développée en 2009 à l’AMPLab de l’Université de Californie, Berkeley et mise en Open Source en 2010, Apache Spark est un moteur de traitement généraliste de données massives.

Il remplace le système MapReduce, ainsi que des extensions comme Apache Pig et Apache Hive, qui partagent les mêmes problèmes de latence.

Spark a été conçu avec la rapidité comme priorité. Il permet aux développeurs de concevoir des tâches en graphes orientés acycliques (DAG) pouvant s’exécuter d’une traite, au lieu de pas à pas. Microsoft Research s’était aussi intéressé aux DAG comme système de parallélisation et de distribution avec Dryad.

Spark permet en outre le partage de données entre plusieurs DAG en mémoire vive, ce qui le rend suffisamment véloce – jusqu’à cent fois plus vite que Hadoop MapReduce – pour des traitements en temps réel.

 

IBM

IBM va intégrer Spark dans ses plateformes de données massives, d’analytique et de commerce, ainsi que Watson Health Cloud. IBM offrira Spark en tant que service sur sa plateforme cloud Bluemix.

3 500 ingénieurs et chercheurs d’IBM travailleront sur des projets Spark, et l’entreprise va s’associer avec différentes organisations pour former plus d’un million de spécialistes des données à Spark.

Enfin, IBM va contribuer SystemML, un langage de haut niveau pour l’apprentissage statistique à l’Open Source, et travailler avec Databricks, la branche commerciale d’Apache Spark.

Si IBM n’a pas chiffré son investissement dans Spark, elle espère en retirer les mêmes bénéfices que pour ses investissements de plus d’un milliard de dollars dans Linux en 2000 et 2013, en vendant des solutions et un savoir-faire sur cette technologie.