- Status Terminé
- Percent Complete
- Task Type Incident
- Category HTTP : publication web
- Assigned To No-one
- Operating System All
- Severity Critical
- Priority High
- Reported Version All
- Due in Version Undecided
-
Due Date
Undecided
- Votes
- Private
Attached to Project: Hébergements (Fichiers & web)
Opened by Benoît GEORGELIN - 12.05.2020
Last edited by Aurélien PONCINI - 19.05.2020
Opened by Benoît GEORGELIN - 12.05.2020
Last edited by Aurélien PONCINI - 19.05.2020
FS#117 - Sites indisponibles
Nous rencontrons un incident technique sur le filer qui héberge les fichiers des sites de l’infrastructure MUTU
Nous investiguons en ce moment l’incident.
Les sites sont indisponibles.
Nous avons relancé le filer, nous surveillons le fonctionnement au niveau des disques et du système.
Les sites sont de nouveau disponibles
De nouveau indisponible
Le premier essai de remis en service a échoué, nous tentons de nouveau.
Le service est UP, on surveille
Depuis 18H20 le service est de nouveau down
Le service est en cours de remise en route, mais avec de fortes lenteurs
on est presque bon, ca tourne bien et les performances sont presques OK
Tout est opérationnel, nous avons encore du travail sur la réplication des sauvegardes pour affichage dans le manager iWal
Le service est stable, nous continuons une surveillance accrue.
Le service a de nouveau été perturbé ce soir et les sites indisponibles.
Le problème ne semble pas être materiel mais plutôt logiciel/au niveau des données clients.
Nous devons envisager une solution alternative rapidement pour isoler le problème qui est également aléatoire.
Nous continuons à travailler sur l'incident, pour le moment nous ne parvenons pas à remettre en route le service.
Nous sommes parvenu à remettre de nouveau en service la publication des fichiers.
Le serveur est très instable, nous sommes en train de déployer des serveurs virtuels pour remplacer tous les pools de stockage (zvol) dans les heures à venir, nous surveillons le serveur actuel mais il y a de fortes probabilité qu'il crash de nouveau.
Nous allons communiquer en début d'après midi auprès des clients via un mail direct.
Mail envoyé à nos clients, nous relayons ici si jamais vous ne l'avez pas reçu :
Nous vous contactons au sujet des incidents à répétition survenus ces derniers jours sur la plate-forme d'hébergement mutualisée http1.yulpa.io sur laquelle vos sites sont hébergés.
Comme vous avez pu le constater, mardi, jeudi, vendredi et ce jour, des interruptions plus ou moins longues se sont produites. Cela, avec les mêmes raisons et les mêmes impacts que lors de l'incident du 6 mars 2020 (voir : https://blog.yulpa.io/2020/03/11/retour-sur-lincident-web-du-6-mars-2020/ ).
Depuis l'incident du 6 mars nous travaillons à remplacer ce serveur comme expliqué dans le billet de blog. D'un côté sur les futures offres d'hébergement web (avec un stockage en local) et en parallèle sur la virtualisation pour remplacer ce serveur afin de continuer à faire fonctionner les hébergements web existants.
Actuellement, le service est fonctionnel et toute la nouvelle plate-forme virtualisée est en place. Nous répliquons les données progressivement ce qui prend énormément de temps. Nous ne sommes pas à l'abri de nouvelles interruptions tant que nous n'aurons pas finalisé la migration dans les jours qui viennent. Nous sommes sincèrement désolés pour ces incidents qui ne reflètent pas les disponibilités habituelles, nous nous efforçons de limiter l'impact dans la mesure du possible et espérons que vous serez compréhensif. Nous avons conscience que pour certains d'entre vous cela est très préjudiciable pour vos activités et vos clients.
Nous communiquons sur l'interface https://travaux.yulpa.io et ne pouvons pas répondre à tous les messages et appels téléphonique. Nous vous remercions de votre compréhension.
Cordialement,
Aurélien PONCINI et Benoît GEORGELIN
La situation est stable. Les copies se font sans problème.
Si tout va bien nous pourrons basculer vers les nouveaux pools de stockage dans la nuit du dimanche 17 au lundi 18 mai.
La situation est stable. Les copies se font sans problème.
Pour le moment nous maintenons le serveur en production et affinons la mise en place des VM qui vont prendre le relai. Un des volumes pose problème nous devons voir comment gérer cela pour ne pas avoir un temps de coupure trop important au moment de la bascule.
De nouveau une indisponibilité, nous sommes dessus
Depuis 13H30 tous les sites sur vol1, vol3, vol4 et vol5 sont UP.
Nous avons encore un souci avec vol2 sur lequel on travail.
La synchro est en cours on espère pouvoir être OK vers 19H sur vol2
La synchro est toujours en cours, on finalise :(
La situation est enfin stable sur tous les volumes. Encore toutes nos excuses pour cette grosse indisponibilité.