Après des années de relative stabilité, les pannes majeures se suivent chez l’hébergeur OVH.
Fin juin 2017, en pleines soldes, plus de 50 000 sites web hébergés sur OVH ne fonctionnaient plus, une panne massive ayant été causée par de l’eau coulant sur un système de stockage EMC, des groupes électrogènes qui ne prenaient pas le relais, et des plans de reprise d’activité qui échouaient.
Il s’agissait de la plus grande panne d’OVH depuis 2006.
Le 9 novembre, une nouvelle panne affectait plusieurs centres de traitement de données d’OVH, mis d’abord sur le compte d’arrivées électriques d’EDF, plus des soucis sur le réseau optique en Europe. Un bogue logiciel effaçant les configurations serait à l’origine de ces soucis.
Hier, une maintenance était planifiée à 23 heures, dans le but d’éviter une panne telle que celle de novembre. En divisant l’équipement de réseau en trois grappes, afin qu’au pire, un tiers du trafic soit affecté par un bogue.
Mais à 20 h 20, toutes les connexions étaient à nouveau coupées, malgré des logiciels mis à jour, et la base de données disparaissait.
Préparation de l’intervention de cette nuit qui a pour le but de diviser les chassis en 3, a mal tourné sur le noeud optique de RBX: la configuration a encore disparue. Malgré les mises à jour de software !!! On remet la conf au plus vite ! https://t.co/9yteWWuWWO
— Octave Klaba (@olesovhcom) December 6, 2017
Octave Klaba, CEO d’OVH, décide de reporter l’intervention prévue, et d’analyser avec Cisco pourquoi les configurations disparaissent.
Résultat, de très nombreux services toujours affectés à 10 heures le 7 décembre :