Trois causes racines seraient à l’origine de la panne d’authentification à facteurs multiple de Microsoft du 19 novembre

Lundi 19 novembre, des clients d’Azure, Office 365, Dynamics et d’autres services en ligne de Microsoft, dans le monde entier, ont éprouvé des difficultés à se connecter pendant 14 heures, une durée notable pour l’informatique en nuage.

En cause, des problèmes avec le service d’authentification à facteurs multiples (MFA) de Microsoft Azure Active Directory, le service de répertoire utilisé par tous les services susmentionnés.

Dans une analyse rétrospective, Microsoft détaille aujourd’hui les raisons de cette panne.

La première cause racine a été identifié sur les serveurs MFA en contact avec les clients. Elle a été introduite par une mise à jour qui a été déployée sur ces serveurs du 13 au 16 novembre.

Quand un certain seuil de trafic a été dépassé, ce qui est arrivé en Europe lundi 19 novembre au matin, la latence de ces serveurs a crû rapidement. C’est un problème, parce qu’un code doit être entré dans un délai limité afin que la requête d’authentification soit acceptée. Sinon, le code n’est plus valide et l’utilisateur doit à nouveau essayer, ce qui empire la situation sur un serveur surchargé.

La deuxième cause racine est une situation de compétition (race condition), un défaut dans un système caractérisé par un résultat différent selon l’ordre dans lequel agissent les acteurs du système.

La situation de compétition apparaît dans le traitement des réponses du serveur dorsal MFA, et mène au recyclage des processus des serveurs MFA en contact avec les clients, ce qui ajoute encore à la latence.

Enfin, la troisième cause racine est un bogue jusqu’ici inconnu dans le service MFA dorsal, déclenché par la deuxième cause racine.

Elle provoque une accumulation de processus débouchant sur un épuisement des ressources des serveurs, rendant le serveur dorsal incapable de traiter les requêtes des serveurs en contact avec les clients, alors que ces derniers apparaissent en bonne santé dans le système de surveillance.

Microsoft ajoute donc que des lacunes dans la télémétrie et dans la surveillance ont ralenti l’identification et la compréhension de ces causes racines.

L’entreprise, qui prie ses clients de bien vouloir l’excuser, prend des mesures pour s’assurer que de tels accidents ne se produiront plus :

  • Analyse des procédures de déploiement des mises à jour afin de détecter des problèmes similaires en phases de développement et de tests ;
  • Analyse des services de surveillance pour déterminer comment réduire la durée de détection et accélérer la restauration des services.
  • Analyse des procédés d’isolation, afin que les problèmes ne se propagent pas d’un centre de données à un autre ;
  • Améliorer les outils de surveillance et les procédés du tableau de bord de santé des services afin de détecter des difficultés de publication immédiatement.