Deuxième panne du Google Cloud Engine en 15 jours

Pour la deuxième fois en une quinzaine de jours, la plateforme Cloud de Google, la Google Cloud Platform (GCP), a subi une panne significative.

La première, numéro 15 045, s’est produite le 19 février 2015 à 7 h 59 (heure de Paris), et a duré plus d’une heure trente. Les machines virtuelles du Google Cloud Engine (GCE), l’infrastructure en tant que service (IaaS) du GCP, sont restées indisponibles pendant cette période, car inaccessibles depuis Internet.

D’après Google, le système interne qui programme les réseaux virtuels GCE pour le trafic avec Internet avait arrêté de mettre à jour les informations de routage. Une enquête sur la cause est toujours en cours.

La deuxième panne, numéro 15046, a eu lieu samedi à 18 h 55 (heure de Paris) et a duré 43 minutes.

Ici encore, les paquets de trafic étaient perdus, avec des inconvenances allant du ralentissement des communications à l’impossibilité de contacter les machines virtuelles.

Pour Google : *

La cause de la perte de paquets a été un changement de configuration introduite dans la pile de protocoles réseaux, conçu pour fournir une plus grande isolation entre machines virtuelles et projets, avec le plafonnement individuel du volume de trafic autorisé par machine virtuelle. La modification de la configuration a été testée avant le déploiement de production sans incident. Cependant, comme il a été introduit dans l’environnement de production il affecté certaines machines virtuelles de façon inattendue.

Les leçons sont tirées, puisque Google promet de mieux tester les changements avant de les déployer en production. À l’avenir, les correctifs concernant la pile de protocoles réseau seront appliqués par petits groupes de machines virtuelles à la fois, afin qu’un éventuel comportement indésirable ne touche qu’un nombre limité de machines virtuelles.

Google propose d’autres services en nuage, comme Google App Engine, Google Cloud Storage ou Google BigQuery, dont les pannes sont répertoriées séparément.

2 heures 45 d’indisponibilité peuvent sembler peu, mais c’est assez pour contrevenir à un accord de service 99,99 %. Si de telles pannes se produisent de temps en temps chez les fournisseurs majeurs de Cloud, il est fort probable que leur disponibilité reste largement supérieure à celle d’un centre de traitement de données ou d’un Cloud privé.

 

* Traduction : Le Diligent