Elle venait d’entrer dans la salle, impressionnée par tant de personnes.
La réunion durait depuis plusieurs heures, j’avais écouté toutes les explications fournies par les parties, et je ne comprenais toujours pas pourquoi les deux entreprises en étaient arrivées là.
J’avais surtout compris que le support informatique effectué par la société de service ne s’était pas déroulé correctement et que les deux entreprises étaient maintenant au bord du gouffre, l’une parce qu’elle avait perdu toute ses données et l’autre son plus gros client.
Mais après avoir écouté, dans l’ordre de bienséance hiérarchique, les grands patrons, puis les avocats, les chefs de service et les chefs de projet, je ne comprenais pas ce qui avait fait tout capoter.
On me parlait de milliers d’euros de pertes par jour, de licenciements, de dépôt de bilan. Et moi, je ramenais toujours les débats sur le terrain de l’expertise judiciaire en informatique, rappelant que mes missions n’incluaient pas l’analyse comptable et financière de la situation, mais la recherche des causes techniques (exclusivement).
Bon, j’avais compris dès le début de la réunion que les rapports humains s’étaient vite envenimés dans cette affaire qui aurait peut-être pu se régler plus simplement et plus rapidement si les deux parties avaient usées d’un peu plus de diplomatie...
Enfin quoi, un serveur ne tombe pas en panne en même temps que son système de sauvegarde : disques durs en miroir (RAID1), sauvegardes quotidiennes complètes avec rotation sur trois bandes, archivage d’une bande chaque semaine hors site.
La société de service me décrit un système de sécurité des données infaillibles, et un suivi des procédures avec traçabilité, etc. "Nous sommes certifiés ISO machin, vous comprenez, notre société est au dessus de tout soupçon, nous n’employons que des personnes compétentes, suivant des formations régulièrement, nous avons mis en place un système de télésurveillance avec prise de contrôle à distance qui nous permet de faire des interventions en un temps record..." m’a expliqué de long en large le patron de la SSII.
"Nous payons très cher un service support qui n’a pas été capable d’empêcher ce désastre..." Me dit le patron de l’entreprise, entre deux invectives, au milieu de reproches divers sans rapport avec l’affaire qui nous concerne.
Nous avions passé en revu l’accès distant du support via internet, les fiches ISO machin d’intervention des techniciens, les rapports, les dossiers techniques, les courriers recommandés.
Moi, je voulais voir la personne qui avait appelé le support...
Elle venait d’entrer dans la salle, impressionnée par tant de personnes.
Je lui pose les questions d’usage : prénom, nom et intitulé de la fonction au sein de l’entreprise. Dans un silence à la tension palpable, elle me raconte sa version de cette journée noire.
Elle : "Comme d’habitude, avant de partir déjeuner, j’ai mis la bande dans le serveur et lancé la sauvegarde. Je sais que c’est une opération importante alors je la fais toujours avec précautions. Mon chef m’a dit que les bandes étaient très chères."
Moi : "Comment saviez-vous que c’était la bonne bande à placer dans le boitier ?"
Elle : "Les bandes sont numérotées et je dois mettre la bande correspondant au numéro du jour."
Moi : "Pouvez-vous préciser ? J’avais cru comprendre qu’il n’y avait que trois bandes."
Elle : "Oui, mais la bande numéro 3 a été mise de côté par le comptable après la clôture des comptes. Il m’a dit de mettre la bande numéro 1 les jours impairs et la bande numéro 2 les jours pairs. J’ai trouvé cela astucieux, car avant, je devais à chaque fois noter dans un cahier le numéro de la bande utilisée."
Moi : "Montrez-moi ce cahier, s’il vous plait. Donc depuis huit mois les sauvegardes ne se faisaient que sur deux bandes. Pouvez-vous me dire ce qui c’est passé à votre retour de pause déjeuner ?"
Elle : "Les assistants m’ont appelé pour me dire que leurs terminaux ne fonctionnaient plus et pour me demander de redémarrer le serveur. J’y suis allé et j’ai vu que l’écran était tout bleu avec des inscriptions que je n’ai pas comprises. Avant de redémarrer le serveur, j’ai appelé le support. Le technicien m’a dit que cela arrivait de temps en temps et qu’il fallait que je redémarre le serveur. Je lui ai dit que la sauvegarde ne s’était pas terminée correctement. Il m’a dit de la relancer."
Moi : "Vous avez utilisé la même bande ?"
Elle : "Oui. C’est d’ailleurs ce que m’a demandé le technicien lorsque je l’ai rappelé une heure plus tard pour lui dire que de nouveau plus rien ne fonctionnait et que la sauvegarde s’était encore mal terminée. Il m’a alors indiqué que la bande devait être défectueuse et que c’est ça qui devait "planter" le serveur. Il m’a alors recommandé d’utiliser une autre bande. C’est pour cela que j’ai mis la bande n°2 alors que ce n’était pas le bon jour."
Moi : "Vous n’avez pas de bandes neuves ?"
Elle : "On ne m’en a pas donné et j’ai cru que c’était parce qu’elles coutaient cher."
Moi : "Mais, quand votre chef vous a dit qu’elles avaient de la valeur, ne voulait-il pas dire cela à cause des données qui étaient stockées dessus ?"
Elle : "Ce n’est pas ce que j’ai compris. On m’a dit qu’elles étaient chères..."
Moi : "Mais en mettant la deuxième bande, ne vous êtes-vous pas dit que si elle venait également à être effacée, il n’y aurait plus de sauvegarde ?"
Elle : "Non, je n’ai fait que suivre les indications du support..."
Je l’ai regardé sortir de la salle et j’ai eu une pensée émue pour les gens qui sont les derniers maillons de la chaine de commandement, les petites mains. Ce sont souvent elles qui ont les plus grandes responsabilités in fine.
Mais je n’ai pas oublié l’ensemble des décideurs :
un disque dur en miroir sans remontée d’alertes et sans surveillance. Résultat : depuis plusieurs mois, l’un des deux disques était en panne. Il ne restait plus qu’à attendre la panne du deuxième, ce qui venait d’arriver pendant le stress généré par la sauvegarde.
une mauvaise formation des employés concernant le système de sauvegarde (et le coût des bandes en regard du coût de la perte des données). Ils n’avaient pas conscience que lorsqu’une sauvegarde démarre, elle écrase les données précédentes. Si elle est interrompue brutalement, la bande est inexploitable. Deux bandes inexploitables à cause d’un disque en train de tomber en panne et toutes les données sont perdues...
une prise de contrôle à distance inopérante en cas d’écran bleu qui aurait du déclencher la venue en urgence d’un technicien.
la décision du support de sacrifier une deuxième bande de sauvegarde sans s’être renseigné sur l’existence d’une autre bande de sauvegarde récente et en état.
la décision de retirer une bande du jeu de trois sans prévenir le support, surtout quand cela annule la sauvegarde hebdomadaire avec déport hors site.
l’absence totale d’exercice de restauration de données et de tests des bandes utilisées.
la situation de quasi abandon du serveur du point de vue physique avec traces de serpillère sur la carcasse posée à même le sol et sur la multiprise parafoudre...
Il y avait beaucoup de choses à dire sur le respect de l’état de l’art par les deux entreprises. Il y a de nombreuses fois où je n’envie pas le juge qui doit trancher. Je me contente de rester un simple technicien de l’informatique.
Mais j’ai encore aujourd’hui une pensée pour le dernier maillon de la chaine, celui à qui on dit d’appuyer sur le bouton et qui fait tout exploser...