Une panne de 6 h 30 a affecté des clients des nuages de Microsoft

Une panne du service d’authentification Azure Active Directory a affecté certains clients des services en nuage de Microsoft à partir de 20 h 15, heure de Paris, lundi, jusqu’à ce matin, 3 h 45, soit une durée de 6 h 30.

Durant cette période, les personnes/entreprises affectées n’ont pu se connecter aux services de Microsoft, y compris Microsoft 365, Dynamics 365, Microsoft Teams, Microsoft Azure, et même Xbox Live.

Comme trop souvent, la panne est liée à la gestion de clés de chiffrement. Une clé fut étiquetée « Retain » – conserver– mais a par erreur du système automatisée quand même été détruite.

Les métadonnées sur les clés sont publiées dans un endroit global d’Azure AD. Une fois publiées vers 19 h 15, ces métadonnées ont été récupérées par les applications exploitant ce protocole, qui n’ont plus fait confiance aux assertions signées par la clé manquante.

La télémétrie de Microsoft a identifié le problème, et les métadonnées de la clé effacée ont été réintégrées. Il faut ensuite un certain temps pour que les différentes applications tiennent compte de ces mises à jour.

Le problème est rendu encore plus complexe car il s’agit d’un processus à plusieurs phases.

Un problème similaire est arrivé en septembre 2020, et Microsoft a commencé à développer un outil automatique pour l’éviter dans le cadre du Safe Deployment Process (SDP) – processus sûr de déploiement. Il est prêt pour le premier cas : une clé qui aurait dû être effacée mais qui ne l’a pas été ; Le deuxième scénario, qui s’est produit hier, une clé qui aurait dû être préservée mais qui a été effacée, devait être adressé d’ici juin.

Microsoft, qui reconnaît que la durée de l’indisponibilité de ses services est inacceptable, s’en excuse.

L’entreprise est confiante que les changements du SDP, quand ils seront terminés en milieu d’années, empêcheront ce type de problème de se reproduire.

Et elle informe que le déploiement d’Azure AD backup authentification est en bonne voie.

Les clients devront patienter encore avant de pouvoir lire l’analyse définitive des causes profondes de l’incident.