Pas la joie pour les clients de Joyent

Joyent, l’entreprise de services cloud qui est à l’origine de node.js et SmartOS, une variante de linux avec conteneurs, vient de connaître une panne majeure.

Un administrateur a fait crasher le centre de traitement de données US-East-1 et tous ses serveurs.

Joyent avait commencé par annoncer des problèmes passagers de disponibilité mardi à 00h30 heure de Paris.

« En raison d’une erreur d’un opérateur, tous les serveurs du centre de traitement de données US-East-1 ont redémarré en même temps. Quelques-uns sont déjà disponibles, mais dû à la charge importante pour le plan de contrôle, cela prend du temps. Nous consacrons toutes nos ressources opérationnelles et d’ingénierie pour résoudre ce problème, et nous fournirons une analyse finale sur cette panne dès que tous les nœuds de calculs et toutes les machines virtuelles de nos clients seront en ligne et opérationnelles. »*

Hormis la perte de données ou les crashs simultanés de plusieurs centres de données, le redémarrage de tous les serveurs d’un centre de traitement de données est la pire crise pour un opérateur Cloud.

Quelques heures après, le problème était largement résolu. Joyent a conclu des accords de niveau de service avec ses clients, qui devraient être compensés en conséquence.

La firme, qui vantait une disponibilité de 99,999%, soit pas plus de 5 minutes d’interruptions par an, va devoir réviser son marketing avec au mieux 99,95 %.

Pour autant, tous les grands du Cloud, y compris Amazon, Google, Microsoft et Rackspace, ont connu des déboires similaires par le passé, et il est fort probable que les entreprises fassent nettement moins bien dans leurs centres privés.

Brian Cantrill, le directeur de la technologie de Joyent, note dans un billet sur le site Hacker News :

« Il va sans dire que nous sommes mortifiés par cet incident. Alors que sa cause immédiate était erreur de l’opérateur, il y a des problèmes systémiques plus larges qui ont permis à une action de paralyser un centre de traitement de données. Dès que nous le pourrons raisonnablement, nous fournirons une autopsie complète de l’incident : comment c’est architecturalement possible, ce qui s’est exactement passé, comment le système a récupéré et quelles améliorations nous apportons et apporteront tant aux logiciels qu’aux procédures opérationnelles pour s’assurer que cela n’arrivera plus à l’avenir (et que la reprise dans des cas similaires s’effectue sans anicroche ). »

Certains clients ont critiqué l’information de crise de Joyent, où une mise à jour efface la précédente, ce qui ne permet pas de se faire une idée de la série d’événements.

 

* Toutes les traductions: Le Diligent.