On en sait un peu plus sur la mise à jour, déployée en une seule fois plutôt que de façon incrémentale, qui a provoqué l'interruption de service qui a frappé les services cloud Azure de Microsoft, les 18 et 19 novembre derniers. Après un premier éclaircissement, le vice-président corporate et responsable de l'équipe Azure chez Microsoft, Jason Zander, a fourni des explications complémentaires. C'est donc une erreur humaine qui est à l'origine de la panne du service de stockage cloud Microsoft Azure le mois dernier. La société espère d'ailleurs que les mises à jour récentes, permettant d'automatiser les anciens processus manuels, vont aider à empêcher ce type de pannes à l'avenir.

« Microsoft Azure a des directives opérationnelles claires, mais il y avait une lacune dans l'outillage de déploiement dépendant de décisions humaines », a indiqué Jason Zander, le vice-président corporate et responsable de l'équipe Azure chez Microsoft dans un billet posté mercredi détaillant cette panne. « Avec les mises à jour de cet outillage, la politique est maintenant appliquée par la plateforme de déploiement elle-même. » Ce n'est pas la première fois qu'Azure a été perturbé par une faute humaine. En février 2013, un certificat de sécurité expiré avait notamment provoqué une panne majeure d'Azure.

Des tests automatisés avant tout changement ou évolution de code

La panne Azure qui est survenue dans la nuit du 18 au 19 novembre est due à une défaillance intermittente de certains services de stockage de Microsoft. Les autres services qui reposent sur ces derniers sont d'ailleurs également tombés, notamment les machines virtuelles Azure. Concernant la survenance de cet incident majeur, Jason Zander explique que Microsoft procède habituellement à un test avant chaque mise à jour de ses services cloud sur quelques serveurs, de façon à repérer les éventuels problèmes de changement de configuration. Or, cette fois-ci, un ingénieur a supposé qu'elle avait déjà été plusieurs fois effectuée et a pris la décision de l'appliquer au reste du système. Mais il s'avère que cette configuration contenait un bug ayant eu pour effet de faire entrer le service de stockage dans une boucle sans fin, empêchant toute communication avec les autres composants du système.

Rapidement identifié, le problème a été résolu par la publication de correctifs à 10h50 le 19 novembre et le service de stockage a été de nouveau en ligne dans la foulée, bien que, comme nous l'ont confirmé des lecteurs, la restauration de toutes les machines virtuelles a pris plus de temps et qu'un petit nombre d'entre elles sont restées en panne au cours des deux jours qui ont suivi. Afin d'éviter que ce problème ne survienne plus, Microsoft a étudié dans le détail ce qui s'est passé et à en conséquence mis à jour son son système de déploiement de façon à ce qu'il applique maintenant les tests avant qu'un nouveau code ou un changement ne soit appliqué à l'ensemble du système.