Hébergements (Fichiers & web)

  • Status Terminé
  • Percent Complete
    100%
  • Task Type Incident
  • Category HTTP : publication web
  • Assigned To No-one
  • Operating System All
  • Severity Critical
  • Priority High
  • Reported Version All
  • Due in Version Undecided
  • Due Date Undecided
  • Votes
  • Private
Attached to Project: Hébergements (Fichiers & web)
Opened by Benoît GEORGELIN - 12.05.2020
Last edited by Aurélien PONCINI - 19.05.2020

FS#117 - Sites indisponibles

Nous rencontrons un incident technique sur le filer qui héberge les fichiers des sites de l’infrastructure MUTU
Nous investiguons en ce moment l’incident.
Les sites sont indisponibles.

Admin
Benoît GEORGELIN commented on 12.05.2020 16:30

Nous avons relancé le filer, nous surveillons le fonctionnement au niveau des disques et du système.
Les sites sont de nouveau disponibles

Admin
Aurélien PONCINI commented on 14.05.2020 09:04

De nouveau indisponible

Admin
Aurélien PONCINI commented on 14.05.2020 09:32

Le premier essai de remis en service a échoué, nous tentons de nouveau.

Admin
Aurélien PONCINI commented on 14.05.2020 09:34

Le service est UP, on surveille

Admin
Aurélien PONCINI commented on 14.05.2020 17:06

Depuis 18H20 le service est de nouveau down

Admin
Aurélien PONCINI commented on 14.05.2020 22:34

Le service est en cours de remise en route, mais avec de fortes lenteurs

Admin
Aurélien PONCINI commented on 14.05.2020 23:12

on est presque bon, ca tourne bien et les performances sont presques OK

Admin
Aurélien PONCINI commented on 15.05.2020 00:01

Tout est opérationnel, nous avons encore du travail sur la réplication des sauvegardes pour affichage dans le manager iWal

Admin
Aurélien PONCINI commented on 15.05.2020 10:09

Le service est stable, nous continuons une surveillance accrue.

Admin
Benoît GEORGELIN commented on 15.05.2020 22:39

Le service a de nouveau été perturbé ce soir et les sites indisponibles.
Le problème ne semble pas être materiel mais plutôt logiciel/au niveau des données clients.
Nous devons envisager une solution alternative rapidement pour isoler le problème qui est également aléatoire.

Admin
Aurélien PONCINI commented on 16.05.2020 05:02

Nous continuons à travailler sur l'incident, pour le moment nous ne parvenons pas à remettre en route le service.

Admin
Aurélien PONCINI commented on 16.05.2020 11:03

Nous sommes parvenu à remettre de nouveau en service la publication des fichiers.

Le serveur est très instable, nous sommes en train de déployer des serveurs virtuels pour remplacer tous les pools de stockage (zvol) dans les heures à venir, nous surveillons le serveur actuel mais il y a de fortes probabilité qu'il crash de nouveau.

Nous allons communiquer en début d'après midi auprès des clients via un mail direct.

Admin
Aurélien PONCINI commented on 16.05.2020 18:17

Mail envoyé à nos clients, nous relayons ici si jamais vous ne l'avez pas reçu :

Nous vous contactons au sujet des incidents à répétition survenus ces derniers jours sur la plate-forme d'hébergement mutualisée http1.yulpa.io sur laquelle vos sites sont hébergés.

Comme vous avez pu le constater, mardi, jeudi, vendredi et ce jour, des interruptions plus ou moins longues se sont produites. Cela, avec les mêmes raisons et les mêmes impacts que lors de l'incident du 6 mars 2020 (voir : https://blog.yulpa.io/2020/03/11/retour-sur-lincident-web-du-6-mars-2020/ ).

Depuis l'incident du 6 mars nous travaillons à remplacer ce serveur comme expliqué dans le billet de blog. D'un côté sur les futures offres d'hébergement web (avec un stockage en local) et en parallèle sur la virtualisation pour remplacer ce serveur afin de continuer à faire fonctionner les hébergements web existants.

Actuellement, le service est fonctionnel et toute la nouvelle plate-forme virtualisée est en place. Nous répliquons les données progressivement ce qui prend énormément de temps. Nous ne sommes pas à l'abri de nouvelles interruptions tant que nous n'aurons pas finalisé la migration dans les jours qui viennent. Nous sommes sincèrement désolés pour ces incidents qui ne reflètent pas les disponibilités habituelles, nous nous efforçons de limiter l'impact dans la mesure du possible et espérons que vous serez compréhensif. Nous avons conscience que pour certains d'entre vous cela est très préjudiciable pour vos activités et vos clients.

Nous communiquons sur l'interface https://travaux.yulpa.io et ne pouvons pas répondre à tous les messages et appels téléphonique. Nous vous remercions de votre compréhension.

Cordialement,
Aurélien PONCINI et Benoît GEORGELIN

Admin
Aurélien PONCINI commented on 17.05.2020 11:43

La situation est stable. Les copies se font sans problème.

Si tout va bien nous pourrons basculer vers les nouveaux pools de stockage dans la nuit du dimanche 17 au lundi 18 mai.

Admin
Aurélien PONCINI commented on 18.05.2020 05:26

La situation est stable. Les copies se font sans problème.

Pour le moment nous maintenons le serveur en production et affinons la mise en place des VM qui vont prendre le relai. Un des volumes pose problème nous devons voir comment gérer cela pour ne pas avoir un temps de coupure trop important au moment de la bascule.

Admin
Aurélien PONCINI commented on 18.05.2020 10:04

De nouveau une indisponibilité, nous sommes dessus

Admin
Aurélien PONCINI commented on 18.05.2020 12:56

Depuis 13H30 tous les sites sur vol1, vol3, vol4 et vol5 sont UP.

Nous avons encore un souci avec vol2 sur lequel on travail.

Admin
Aurélien PONCINI commented on 18.05.2020 15:14

La synchro est en cours on espère pouvoir être OK vers 19H sur vol2

Admin
Aurélien PONCINI commented on 18.05.2020 17:30

La synchro est toujours en cours, on finalise :(

Admin
Aurélien PONCINI commented on 18.05.2020 19:14

La situation est enfin stable sur tous les volumes. Encore toutes nos excuses pour cette grosse indisponibilité.

Loading...

Available keyboard shortcuts

Tasklist

Task Details

Task Editing