Note perso #8 : Quand OVH participe à la mort de commerçants et ne fait rien.

"Malheureusement, nous ne pouvons rien faire de plus pour vous."

Article publié le 02/12/2020, dernière mise à jour le 22/09/2023

Vous l'aurez compris, ce soir j'écris cet article sous le coup de la pression après avoir dû gérer des problèmes d'hébergement chez OVH (venant de chez eux), impactant à la fois mon activité, mais surtout celle de ma cliente, commerçante qui souffre déjà de la situation sanitaire actuelle.

Voici un résumé de ce qui s'est passé depuis le 18 Novembre 12h, moment où tout à commencé.

En me connectant sur le site de ma cliente (une instance Wordpress assez légère, hébergée sur un serveur mutualisé), je remarque que les pages du site mettent très longtemps à se charger tant du côté public que du côté admin.

Je vérifie que le problème ne vient pas de chez moi, ma cliente me confirme que le problème est aussi présent chez elle, je fait donc un tour de vérification être sûr que rien n'ait bougé de notre côté.

À 14h le site est devenu tellement lent que chaque page met au minimum 9 secondes à se charger jusqu'à très souvent finir par un timeout. En regardant les logs du serveur, j'aperçois la première erreur timeout de la journée à partir de 10h du matin, le problème est donc présent depuis 4h, période pendant laquelle le site est comme inaccessible au public.

Je me rends sur la page de status des incidents en cours chez OVH, et découvre qu'une anomalie a effectivement bien lieu en ce moment même sur leur infrastructure, localisée exactement sur le même cluster et le même filerz que notre hébergement.

Je contacte doncle support OVH sur Twitter pour confirmer que cet incident est bien la cause de mes problèmes, car après tout leur incident indique un simple "ralentissement du service", alors que notre site lui n'est même plus accessible.

Le support me confirme que c'est bien lié au même problème et m'invite, je cite: "à patienter la résolution de cet incident par nos administrateurs."

À ce moment-là, je prends le temps d'expliquer le problème à ma cliente, à demander à son équipe de communication de stopper toutes les publicités en cours pour lui éviter de jeter de l'argent par les fenêtres, ce dont elle n'a pas besoin en ce moment.

Je patiente donc, en consultant régulièrement la fiche d'incident et en espérant que leurs très talentueux ingénieurs (et je le pense) arrivent à résoudre le problème au plus vite.

Le lendemain (19 Novembre) en cours d'après-midi je suis soulagé de voir que le problème est indiqué comme résolu sur travaux.ovh.net, et fonce donc me connecter sur le site de ma cliente afin de vérifier que tout fonctionne bien.

Tout est en ordre, j'ai l'impression que le site est légèrement plus lent qu'avant mais de manière négligeable et nous décidons de donner le feu vert à l'équipe communication pour tout relancer.

Une semaine après (26 Novembre), le responsable communication m'appelle pour me dire qu'étrangement, beaucoup de personnes sont arrivées sur le site avec les publicités la semaine passée, mais qu'il n'y a eu aucune transaction et qu'il pense que ça viendrait de la lenteur du site.

Etonné, je me connecte, et là cauchemar : le problème est revenu. Je vérifie que cette latence arrive bien en amont du chargement du site en lui-même, et comme c'est le cas, je décide de contacter le support, par téléphone cette fois.

Après environs 1h30 d'attente au téléphone pour arriver à joindre le support, j'arrive finalement à expliquer mon problème, avec tous les détails.

J'obtiens alors deux réponses :

Merci de bien vouloir patienter, mais nous n'avons aucune idée du temps de résolution.
Si vous voulez migrer votre hébergement pour sortir du cluster problématique, il faudra le faire à la main.

N'ayant aucune place dans mon planning pour m'occuper moi-même de régler les problèmes d'infrastructure venant d'OVH (étonnant non ?), nous décidons donc d'attendre avant de relancer l'activité e-commerce de ma cliente, croisant les doigts pour que la vraie résolution viennent dans les heures à venir.

Surprise, le même jour à 22h30 l'incident est réglé, retour à la normale et reprise du travail sur le site.

Mais aujourd'hui, 2 Décembre (1 semaine plus tard), je reçois un appel pour me dire que le site est encore en rade et après une heure d'attente supplémentaire au téléphone, lorsque je demande tout simplement à ce qu'on copie mon hébergement actuel vers un cluster différent, on me répond :

Nous ne sommes pas en capacité de faire celà.

Et quand j'explique que ma cliente, déjà dans une situation de crise sanitaire sans précédent, perd chaque jour de l'argent à cause de leurs soucis techniques, on me répond :

La meilleure solution est d'attendre la résolution de l'incident, une nouvelle carte de tâche a été ouverte chez nous.

Autrement dit :

Le fait que nous impactions directement des commerçants dans une situation déjà critique, le mois de Noël avec le black friday et un déconfinement qui approche ne nous intéresse pas le moins du monde.

Ce que j'en pense

Je sais très bien que ce genre de problèmes peut arriver chez un hébergeur, que le temps de résolution, tout comme dans le développement, n'est pas toujours connu et je ne jette surtout pas la pierre aux ingénieur.e.s qui travaillent d'arrache-pied pour résoudre la situation.

Mais je reproche plusieurs chose à OVH dans la gestion de cet incident.

Ne pas être prévenu

À partir du moment où l'on connait le cluster et le filerz sur lequel arrive un incident, il devrait être automatique d'avertir le client qu'un incident est en cours sur son panneau d'aministration, ou mieux, de le prévenir par e-mail.

Un support trop peu réactif

D'accord je ne bénéficie pas du support premium, mais attendre des heures au bout du fil donne vraiment l'impression d'être la dernière des préoccupations de l'entreprise.

Le manque de solution de secours

À quel moment une entreprise spécialisée dans l'hébergement et la gestion d'infrastructure cloud n'est pas capable de copier un hébergement d'un cluster à un autre si un problème bloque le fonctionnement d'une entreprise sur une semaine complète, voir plus ?

La minimisation du problème

Annoncer un ralentissement du système lorsque le temps de chargement est augmenté de 25% est légitime, mais parler de ralentissement alors que des dizaines de sites sont carrément indisponibles, je trouve ça légèrement malhonnète.

Pour couronner le tout, si vous examinez les pages des incidents, la date de début du premier incident à été déplacé du 18 Novembre au 26 Novembre 18h, comme si en réalité l'incident n'avait duré que 4h30, et non pas sur une semaine complète avec des intermitences.

Fiche d'incident n°1 (fermée) : http://travaux.ovh.net/?do=details&id=47888&
Fiche d'incident n°2 (ouverte) : http://travaux.ovh.net/?do=details&id=47966&

Pour finir

En tant que développeur il est tentant de passer uniquement par des solutions utilisées beaucoup plus globalement, mais j'aime essayer de passer par des plateformes françaises dès que je le peux, et c'est aussi pour ça que j'aime travailler avec OVH qui fourni d'ordinaire une plateforme de qualité.

Mais parfois on peut se demander si il est vraiment utile de faire ces efforts-là si cette même entreprise Française n'en a rien à faire d'impacter négativement d'autres entreprises nationales, même plus modestes.

S'il vous plait OVH, ne me décevez plus comme aujourd'hui, je vous aime quand même, mais faut pas déconner

Artem Gavrysh sur Unsplash

Vous avez terminé l'article ?

Aucun commentaire pour l'instant