Première panne mondiale d'une heure pour Azure
Microsoft s'explique

Le , par imikado, Rédacteur
Microsoft Azure est la plateforme PaaS et IaaS concurrente d'Amazon AC2.

Dans la nuit de mardi à mercredi, entre 1h et 2h (heure française) la quasi-totalité des services était interrompue (Azure Storage, Virtual Machines,Websites,Visual Studio,Azure Backup Services...)
Microsoft a réussi a réglé le problème outre Atlantique, mais les problèmes persistaient en Europe de l'Ouest au moins jusqu'à 12h (confirmé par le biais d'incident de Microsoft)
Citation Envoyé par Journal du net
Selon le spécialiste français du pilotage de la performance des CDN et des Clouds, tout ne semble pas avoir été totalement réglé depuis sur cette zone et son datacenter (basé à Dublin). « À 11h, le taux de disponibilité était toujours sous les 90%, et à 12h il était de 93%, donc toujours pas revenu à la normale », précise-t-on chez Cedexis. Quant à la région Europe de l'ouest d'Azure (datacenter d'Amsterdam), elle semble touchée également, mais dans une moindre mesure.

Jason Zander, explique dans un billet (sur le blog de Microsoft Azure) que le problème a eu lieu durant une procédure d'amélioration des performances.
La mise à jour avait pourtant été testée durant plusieurs semaines sur certains clients avec succès, celle-ci améliorant notablement les performances.

Malheureusement, lors du déploiement sur l'ensemble de l'infrastructure, un bug (qui a échappé aux tests) a provoqué un problème de boucle infinie obligeant les équipes à revenir en arrière sur cette mise à jour et redémarrer une partie des serveurs frontaux.

During the rollout we discovered an issue that resulted in storage blob front ends going into an infinite loop, which had gone undetected during flighting. The net result was an inability for the front ends to take on further traffic, which in turn caused other services built on top to experience issues.

J. Zander, au nom de Microsoft s'excuse pour la gêne occasionnée, et assure que leurs services travaillent pour bien comprendre ce qui est arrivé et éviter que cela se reproduise à l'avenir.

Source: http://azure.microsoft.com/blog/2014...-interruption/

Incident Start Date and Time
11/19/2014 00:51:00 AM (UTC)
Date and Time Service was Restored
11/19/2014 11:45:00 AM (UTC)

Que pensez-vous de cette panne importante de 11h sur un service de Cloud si critique ?

Pensez-vous que cet incident peut faire perdre des parts de marché au profit de ses concurrents ?

Trouvez-vous normal que le problème ait été réglé en 1h pour les clients américains et 11h pour les autres ?


Vous avez aimé cette actualité ? Alors partagez-la avec vos amis en cliquant sur les boutons ci-dessous :


 Poster une réponse

Avatar de Paul TOTH Paul TOTH - Expert éminent sénior http://www.developpez.com
le 21/11/2014 à 9:26
C'est la Loi de Murphy, il faut être fou pour ne pas en tenir compte
Avatar de Saverok Saverok - Expert éminent http://www.developpez.com
le 21/11/2014 à 11:01
Qu'en est-il de la compensation financière ?
Une telle panne a pu avoir des conséquences économiques importantes pour pas mal de clients
Avatar de Zefling Zefling - Membre émérite http://www.developpez.com
le 21/11/2014 à 11:03
Citation Envoyé par Paul TOTH  Voir le message
C'est la Loi de Murphy, il faut être fou pour ne pas en tenir compte

Si tu la prends en compte, tu ne fais plus rien.
Avatar de redcurve redcurve - Membre actif http://www.developpez.com
le 21/11/2014 à 11:10
Citation Envoyé par Saverok  Voir le message
Qu'en est-il de la compensation financière ?
Une telle panne a pu avoir des conséquences économiques importantes pour pas mal de clients

ça dépend de ton SLA
Avatar de AoCannaille AoCannaille - Membre expérimenté http://www.developpez.com
le 21/11/2014 à 11:17
Citation Envoyé par Zefling  Voir le message
Si tu la prends en compte, tu ne fais plus rien.

Appliquée à l'informatique c'est pas "tu ne fais plus rien" mais "tu en fais 100x plus" (En plus du controlle exhaustif des entrée, des sections critiques dés el 2e thread, un mapping mémoire à l'octet prêt, des systèmes redondants codés dans des langages différents qui tournent sur du matériel différents.... Bref, tu finit à faire de la D0178 en D.A.L. A pour un site Web )
Avatar de Chauve souris Chauve souris - Membre chevronné http://www.developpez.com
le 21/11/2014 à 11:25
Cette histoire de délégation de stockage, outre qu'on apporte tout sur un plateau à la NSA, montre qu'elle est fragile (ce qui était prévisible). Bon je ne connais que les PME mais je persiste à penser que le stockage et les serveurs doivent être dans l'entreprise (logiquement, mais on peut utiliser une machine dans un autre lieu pour pallier le risque d'incendie, par exemple, comme je l'ai vu pour une entreprise de nautisme où un des bateaux stocké a pris feu et tout a brulé et, bien sûr, le patron n'avait rien organisé pour les sauvegardes). Donc dans les nuages ça peut être aussi dans les choux Et puis ici on ne parle que du point d'arrivée, or il y a plein de "trucs" avant, fragiles eux-aussi (surtout quand on a vu que les requins considéraient que les câbles optiques faisaient d'excellents cure-dents ).
Avatar de Paul TOTH Paul TOTH - Expert éminent sénior http://www.developpez.com
le 21/11/2014 à 11:26
Citation Envoyé par Zefling  Voir le message
Si tu la prends en compte, tu ne fais plus rien.

mais si, simplement il faut savoir que ça plante forcément quand il ne faut pas...sinon tout le monde s'en fou d'ailleurs.
Avatar de Lutarez Lutarez - Membre chevronné http://www.developpez.com
le 21/11/2014 à 11:31
Citation Envoyé par imikado  Voir le message
Que pensez vous de cette panne importante de 11h sur un service de Cloud si critique ?

C'est simplement le risque principal des services Cloud que tout le monde connait. Les fournisseurs le savent très bien d'ailleurs, avec leur taux de disponibilité à 99,999999999999999%
Après, objectivement, cela peut arriver à n'importe quel système/réseau, et souvent durer beaucoup plus longtemps de 11h...

Citation Envoyé par imikado  Voir le message
Pensez-vous que cet incident peut faire perdre des parts de marché au profit de ses concurrents ?

En part de marché, très peu je pense : les entreprises ayant investi sur Azure ne peuvent pas passer du jour au lendemain sur un autre fournisseur par exemple.
En valorisation boursière par contre, cela à du avoir un certain impact.

Citation Envoyé par imikado  Voir le message
Trouvez-vous normal que le problème ait été réglé en 1h pour les clients américains et 11h pour les autres ?

Oui et non. Quand le soucis est arrivé, il faisait nuit en Europe. Donc ça semble logique prioriser les USA à ce moment-là (même si 11h reste long).
Et si une entreprise misant sur le Cloud n'est pas capable d'anticiper ce genre de problème, c'est qu'elle n'a rien compris au Cloud.

Là où je trouve que c'est très critiquable, c'est qu'il semble y avoir un décalage entre les compétences les différentes DataCenter au niveau de l'administration : pourquoi le problème est-il résolu en 1h aux USA et 11h en Europe ? L'architecture est pourtant la même...
Avatar de dfiad77pro dfiad77pro - Membre éprouvé http://www.developpez.com
le 21/11/2014 à 11:38
Citation Envoyé par Chauve souris  Voir le message
Cette histoire de délégation de stockage, outre qu'on apporte tout sur un plateau à la NSA, montre qu'elle est fragile (ce qui était prévisible). Bon je ne connais que les PME mais je persiste à penser que le stockage et les serveurs doivent être dans l'entreprise (logiquement, mais on peut utiliser une machine dans un autre lieu pour pallier le risque d'incendie, par exemple, comme je l'ai vu pour une entreprise de nautisme où un des bateaux stocké a pris feu et tout a brulé et, bien sûr, le patron n'avait rien organisé pour les sauvegardes). Donc dans les nuages ça peut être aussi dans les choux Et puis ici on ne parle que du point d'arrivée, or il y a plein de "trucs" avant, fragiles eux-aussi (surtout quand on a vu que les requins considéraient que les câbles optiques faisaient d'excellents cure-dents ).


Malheureusement toutes les entreprises n'ont pas les moyens et les compétences ( et l'envie ) pour tout internaliser.
De plus maintenir la même qualité de service qu'Azure est assez difficile, mieux vaux que l'entreprise se concentre sur son réseau interne.

Embaucher une dizaine de personnes + acheter le matériel reviens bien plus cher que d'utiliser un service comme azure.
Avatar de Saverok Saverok - Expert éminent http://www.developpez.com
le 21/11/2014 à 11:44
Citation Envoyé par dfiad77pro  Voir le message
Malheureusement toute les entreprises n'ont pas les moyens et les compétences pour tout internaliser.

Embaucher une dizaine de personnes + acheter le matériel reviens plus cher que d'utiliser un service comme azure.

Sans compter que même en interne, il peut y avoir des pannes et des erreurs de mise à jour (que ce soit chez les PME ou dans les grands groupes)
Et je dirai même que gérer en interne, cela peut se produire plus souvent et mettre plus de temps à être résolu
De plus dans la gestion des sauvegardes, c'est loin d'être tjrs bien géré en interne
Offres d'emploi IT
Ingénieur BI ou big data H/F
Sogeti France - Midi Pyrénées - Toulouse (31000)
Jeune cto #startup #big data
MATIERE GRISE - Ile de France - Paris (75000)
Extension plateforme big data
Atos - Rhône Alpes - Grenoble (38000)

Voir plus d'offres Voir la carte des offres IT
Contacter le responsable de la rubrique Big Data