Un autre point noir de la bande est que son temps d’accès aux données est plus important qu’avec le disque ?
Ce point est très confus, autant chez les utilisateurs que chez les fabricants. On peut répondre sur deux points.
Le premier point est de savoir comment on calcule le temps d’accès à la bande. On peut le segmenter en trois. Il faut, tout d’abord, que la robotique charge la cartouche dans le lecteur. Sur un système standard, on peut partir sur un temps moyen de 30 secondes. La deuxième étape est qu’on doit localiser la donnée sur la bande : il faut rembobiner cette bande jusqu’à l’emplacement du fichier, ce qui est l’argument roi des pro-disques. Or, il faut savoir que rembobiner une bande de type LTO7 du début à la fin ne prend pas plus de 2.30 Minutes. Bref, on a un deuxième temps d’attente qui peut varier entre 10 secondes et 2.30 minutes selon l’emplacement du fichier. La troisième étape consiste à charger le fichier, ou l’ouvrir en quelque sorte : le temps de chargement du fichier dépend du taux de transfert. Sur cette troisième phase la bande est nécessairement plus rapide que le disque dur. On peut donc conclure que le disque commence un sprint avec une avance allant de 40 secondes à 3 minutes. En général, sur les fichiers très importants comme dans la recherche scientifique, les images satellites ou l’industrie de la vidéo professionnelle, et qui sont supérieurs à 70GB le temps d’accès aux données est quand même plus rapide sur la bande. Par contre, pour les très petits fichiers, le disque dur va aller plus vite. Pire encore, lorsqu’il s’agit d’ouvrir plusieurs fichiers en même temps, la multiplication des rembobinages de la bande creuse naturellement cet écart.
La deuxième idée forte est que, malgré cet avantage, je persiste à penser que l’industrie de la bande ne doit pas traiter ce problème comme prioritaire, et, plutôt, continuer d’investir dans la communication grand publique sur la technologie de bande. Il faut savoir que 85% des fichiers archivés ne sont plus jamais ouverts dans le temps. Une facture enregistrée par une entreprise en 2004 doit toujours être disponible en cas de contrôle, d’incident ou de litige. Par contre, il est évident qu’il y a de grandes chances qu’on ait jamais besoin d’y accéder. Au pire, si cela arrive, cela prendra entre 3 et 4 minutes d’attente sur une LTO7. Est-ce une raison suffisante pour investir autant d’argent pour un besoin optionnel ? Dans l’autre sens, il existe des entreprises qui ont besoin d’accéder fréquemment à un certain nombre de données et c’est précisément pour cela qu’existent les logiciels de gestion des données, qu’on appelle HSM ou logiciel de Tiering en Anglais. Il permet de pratiquer une copie du fichier sur un disque et sur une SSD, afin qu’on puisse y accéder fréquemment. Cela n’est pas incompatible avec l’utilisation de la bande.
Faisons l’avocat du diable. Vous dites que la bande est plus fiable que le disque dans le temps, mais n’est-ce pas précisément le rôle du système RAID sur disque que de sécuriser les données ?
J’appelle cela le cercle vicieux de la perte de données ou comment trouver une solution à un problème, tout en créant un nouveau problème et tout ça pour revenir au problème du départ. Le disque devient défectueux au bout de 3 à 4 ans. Alors on a créé le RAID : en gros, on fait plusieurs copies (deux copies en général) en espérant que si deux des trois disques meurent, le troisième aura survécu. Au-delà de l’aspect surréaliste de cette idée, une conséquence naturelle du RAID, est qu’il réduit considérablement la vitesse d’enregistrement. Afin de trouver une solution à la vitesse d’enregistrement, qui devait solutionner le problème de la perte de données, on a inventé la déduplication. La déduplication consiste à isoler les données nouvellement enregistrées, à ne repérer que les données incrémentales, afin de réduire la capacité de stockage à sauvegarder. En passant, contrairement à ce que les gens pensent, la déduplication n’est en rien un danger pour la bande chez les gros utilisateurs puisque la très grande majorité d’entre eux pratiquent des sauvegardes incrémentales sur bande, et n’ont, par nature, pas besoin d’un logiciel que les aide à réaliser ce qu’ils réalisent déjà avec leur librairie de bande.
Quoiqu’il en soit, il faut savoir que la déduplication est un système qui va utiliser votre système et considérablement en réduire la performance. On peut comparer cela à un particulier qui va télécharger un film sur son portable et qui, du coup, ne peut utiliser son PC tant que le téléchargement n’est pas terminé. Si ce particulier tient absolument à envoyer des mails pendant le téléchargement de ce fichier, la seule solution qui lui reste est d’utiliser un autre PC. C’est pareil avec la déduplication : je vends ce type de solution et beaucoup d’utilisateurs m’ont expliqué qu’ils ont fini par acheter un deuxième serveur afin de pouvoir continuer à travailler dans de conditions décentes tout en sauvegardant leurs fichiers. Bref, cela coût plus d’argent.
Mais le pire est à venir : la déduplication implique une prise de risque maximale en termes de perte de données. En effet, lors de la sauvegarde, le système va éclater les fichiers en morceaux qu’il va répartir de manière chaotique sur les différents disques à sa disposition. Chacun de ces fichiers comporte un “database”, une base de données qui permet de localiser et reconstituer ces fichiers lorsqu’un utilisateur souhait y accéder. On appelle cela la “ré-hydratation” des données. Or, si par malheur, le “database” est sur le mauvais disque dur, celui qui a rendu l’âme, vous ne pourrez plus retrouver vos données. On est revenu au point de départ : le problème du disque est la perte de données. On peut inventer autant d’artifices que possible afin de pousser les gens à la consommation, cela fait tourner l’industrie, mais je doute que ce soit toujours dans l’intérêt des utilisateurs. Encore une fois, le disque dur est un outil formidable, il exerce une fonction primordiale dans un système de stockage, mais la conservation des données à long terme ne fait pas partie de ses attributs. La nouvelle bande telle que la LTO7 est une solution simple, fiable et rapide, il est le complément idéal du disque dur : le disque dur réalise la sauvegarde quotidienne, alors que la bande réalise une sauvegarde hebdomadaire avec pour but, la sécurisation des données dans le temps.
Aujourd’hui un utilisateur qui possède l’équivalent de 40TB de données et qui prévoit une croissance de 10% de données par an pendant 5 ans peut acquérir un système sur bande qui lui coutera au total près de 36 500 Eu sur 5 ans, soit un coût d’amortissement de près de 610 Eu par mois. Ce prix lui donne accès au nombre total de bandes dont il aura besoin pendant 5 ans, des contrats de maintenance, de l’installation de la librairie et des lecteurs, et d’un taux de transfert opérationnel, c’est-à-dire réel, de 720Mb/s. 610 Eu par mois, c’est la valeur de la tranquillité d’esprit.
© HPC Today 2024 - All rights reserved.
Thank you for reading HPC Today.