Une erreur de routage a affecté les clients européens du Google Cloud Platform pendant plus d’une heure

Le 23 novembre 2015, un incident a empêché les machines virtuelles hébergées dans la région Europe de l’Ouest 1 du Google Cloud Platform de communiquer avec des sous-ensembles d’Internet pendant 70 minutes. Une éternité à l’échelle de l’informatique dans le nuage.

Google explique que le problème était une erreur de routage. Les ingénieurs de Google avaient ouvert une liaison virtuelle supplémentaire avec un opérateur de réseau avec lequel l’entreprise avait déjà un contrat d’appairage, et plusieurs liaisons en service.

Comme cet opérateur a indiqué qu’il pouvait transporter beaucoup plus de trafic Internet que présumé, et vers bien plus de destinations, les ingénieurs de Google ont décidé d’acheminer plus de trafic sur cette nouvelle liaison.

Cette dernière a pourtant rapidement saturé, jusqu’à perdre la plupart des données.

Une défaillance qui n’est pas si rare. Dans des conditions normales, le système aurait dû automatiquement détecter l’incident, et rediriger le trafic en utilisant une autre liaison. Mais le lien d’appairage a été activé manuellement, puisque le système d’automatisation était indisponible pour une raison que Google n’a pas détaillé.

C’est pourquoi dorénavant, les procédures seront changées pour s’assurer que les liaisons d’appairage ne puissent plus être activées manuellement.

Google est le troisième fournisseur d’informatique dans le nuage public à l’hyper-échelle, derrière Amazon Web Services et Microsoft Azure.