Le 30 mars 2020, un incident réseau impacte le site de Roubaix chez OVH, ce qui a pour effet de provoquer une interruption de service de notre production.
Les incidents réseaux sont souvent le pire des scénarios. Nos infrastructures sont dimensionnées et conçues pour faire face à une panne serveur, une défaillance de disque(s) ou encore d’un périphérique défectueux. Mais un incident réseau est bien plus critique car il engendre des problématiques bien plus complexes. Au delà des mécanismes de redondance de câbles, etc… quand le router principal est touché, cela devient rapidement bien plus compliqué !
Pour vous récapituler les instants que nous avons vécus : – La supervision qui s’affole – Les accès qui se coupent les uns après les autres – Enfin, les administrateurs qui s’interrogent et s’agitent
Ces cas de figure avaient pourtant été testés à plusieurs reprises, mais le doute s’installe et l’imagination vagabonde… split brain sur le stockage ? Un cache qui corrompt le reste ? …. quoi d’autre encore… ?
Heureusement, oVirt en self Hosted a fait preuve d’un comportement exemplaire : – L’élection des hyperviseurs pouvant héberger le moteur s’est fait immédiatement – Le moteur a mis en maintenance les hyperviseurs qu’il ne voyait plus – Il a mis en pause les machines pour éviter qu’elles ne redémarrent Pendant ce temps, notre cluster Ceph a répondu également présent en préservant les données.
Notre temps d’indisponibilité n’a duré que 20 minutes de plus que le temps d’indisponibilité des infrastructures OVH Cloud. Nous avons en effet,préféré relancer les machines virtuelles progressivement afin de vérifier leur état et éviter l’effet de charge d’un redémarrage simultané.
Bilan : – 0 machine virtuelle corrompue – 0 perte de donnée – Des administrateurs content de leur choix… et destressés
Nous tenons chaleureusement à remercier la communauté oVirt pour ce magnifique produit qui ne bénéficie certainement pas encore de la reconnaissance qu’il mérite ! La qualité et la justesse de cette solution est tout bonnement impressionnante !
Le site du projet : https://www.ovirt.org/ Le compte Twitter : @ovirt