De nombreux services ont été dégradés pendant plusieurs heures à cause des difficultés d’AWS S3

De nombreux services de classe mondiale, comme Adobe Cloud, Autodesk Cloud, Docker, GitHube, Imgur, Medium, Razer, Slack, Trello, Twitch, Yahoo Webmail ont connu de fortes difficultés entre 18h44 le 28 février 2017 et 9h45 aujourd’hui, de la dégradation de service à l’arrêt total.

Tout comme les objets connectés, de Nest par exemple.

Il semblerait que de très nombreuses entreprises moins connues aient également souffert.

En cause, les difficultés du service de stockage S3 d’Amazon Web Service, le plus populaire parmi les start-ups et les entreprises.

On notera d’une part qu’Amazon a refusé, tout du long, de qualifier cet incident de panne, préférant évoquer ‘des taux d’erreurs en augmentation’, alors que l’entreprise elle-même a été incapable de mettre à jour son tableau de bord de l’état de ses services à cause de cette panne.

La panne a affecté uniquement la région US-EAST-1, et pourtant les entreprises affectées n’ont pas pu, globalement, accéder à leur stockage dans le nuage, et les nombreux services et applications qui stockent des données dans S3 ont été affectés.

Autant dire que les clients affectés n’ont pas du tout apprécié la qualification de taux d’erreurs en augmentation, qui permet probablement à AWS de ne pas comptabiliser la panne pour ses contrats de qualité de service garantie.

La panne a affecté de nombreux autres services dans le nuage d’AWS : impossibilité de lancer des instances dans EC2, pannes d’Elastic File System, Elastic Load Balancing, Simple Email Service, Relational Database Service, Lambda, Elastic MapReduce ou Elastic Beanstalk.

Deux services de détection de pannes, downdetector.com et isitdownrightnow.com, n’ont pas pu remplir leur office, étant eux-mêmes affectés par la panne d’AWS S3.

Amazon, comme les autres fournisseurs de services dans le nuage, mettent à disposition un service payant de redondance sur deux régions ou plus.

Il faut croire que de nombreuses entreprises n’aient pas profité de cette offre, soit pour économiser de l’argent, soit par aversion pour l’informatique distribuée. Ou pire, que la redondance n’ait pas fonctionné.

Il n’est pas également défendu d’utiliser plusieurs fournisseurs de services, pour limiter les risques. Bien évidemment, la facture comme la complexité des applications augmentent dans ce cas.

Amazon affirme que le problème est résolu. Il faudra attendre son rapport complet d’incident pour tirer plus de conclusions.