Spark pour Azure HD Insight est disponible

Onze moi après la mise à disposition d’un aperçu, et à l’occasion du Spark Summit 2016, qui se tient du 6 au 8 juin à San Francisco, Microsoft annonce le passage d’HD Insight en disponibilité générale, c’est-à-dire en version prête pour l’environnement de production, et qui peut être couverte par une convention de service.

Apache Spark

Développée en 2009 à l’AMPLab de l’Université de Californie, Berkeley et mise en Open Source en 2010, Apache Spark est un moteur de traitement généraliste de données massives.

Il remplace le système MapReduce, ainsi que des extensions comme Apache Pig et Apache Hive, qui partagent les mêmes problèmes de latence.

Spark a été conçu avec la rapidité comme priorité. Il permet aux développeurs de concevoir des tâches en graphes orientés acycliques (DAG) pouvant s’exécuter d’une traite, au lieu de pas à pas. Microsoft Research s’était aussi intéressé aux DAG comme système de parallélisation et de distribution avec Dryad.

Spark permet en outre le partage de données entre plusieurs DAG en mémoire vive, ce qui le rend suffisamment véloce – jusqu’à cent fois plus vite que Hadoop MapReduce – pour des traitements en temps réel.

 

Apache Spark pour HDInsight

Azure HDI Insight est l’une des composantes de Cortana Intelligence Suite, la suite d’analyse et de données massive de Microsoft qui offre toute une palette de services afin de transformer les données en actions intelligentes.

HD Insight est un ensemble de services cloud gérés dans la plateforme de données Hortonworks qui a pour but de simplifier le développement et l’exécution à l’échelle de solutions sécurisées et hautement disponibles basée sur Apache Spark.

La mise à l’échelle est facilitée par l’intégration du Magasin Azure Data Lake pour un stockage gigantesque de données.

Le Project Livy, un service REST open source codirigé par Microsoft et Cloudera,  permet à Microsoft d’offrir la plus grande garantie de disponibilité du marché: 99,9 %.

La sécurité est assurée par un contrôle d’accès au stockage à base de rôles.

La simplicité est assurée par des intégrations profondes d’HD Insight: avec l’environnement de développement IntelliJ (Scala, Java) pour les développeurs, avec les classeurs Jupyter pour les professionnels de la science des données, et avec des outils d’informatique décisionnelle comme PowerBI, QlikView, SAP Lumira ou Tableau pour les analystes d’affaire.