Table des matières

Le Problème du Stockage de Données à Long Terme

Long Term Data Storage Problem

Les besoins sont

Le seul consensus est que les Tablettes d'argile et le Parchemin sont les meilleurs supports pour la conservation à long terme de documents.
Il y a toujours un compromis entre densité de données et solidité.
Certains disent que les bandes magnétiques sont très bonnes. Mais cet avis peut être trompeur. Même si des bandes magnétiques ont survécu 25 ans, elle étaient magnétisées avec une densité de données bien plus faible que les standards actuels. Et certainement avec des matériaux ferromagnétiques différents de ce qui se fait aujourd'hui.

Recommandations générales du GIS-DON concernant la préservation à long terme des données numériques (textes, documents, photos, enregistrements sonores, vidéos, etc.)

Recommandations du GIS-DON
Source : https://www.lne.fr/fr/projets/gis-spadon
En trois documents, le GIS-DON fait une présentation de la problématique. Ils permettent de réaliser le coût et les efforts associés au stockage numérique.

Besoins de Stockage Offline

Tu as plusieurs besoins classiques de stockage offline

  1. trouver un media de stockage capable de stocker de façon pérenne.
    1. Il doit pour cela être assez résistant à l'usure du temps mais aussi à tout un tas de facteurs environnementaux
      1. chaleur
      2. froid
      3. humidité, champignons
      4. rongeurs
      5. champs magnétiques
      6. impulsions électromagnétiques
  2. être résistant à la destruction catastrophique comme le feu, tsunami ou tremblement de terre. Seule solution : des copies situées en plusieurs sites suffisamment éloignés.
    1. ou alors, le media de stockage contient le reader. C'est l'idéal pour des projets très ambitieux avec une perspective à très long terme (type time capsule). Mais ce n'est probablement pas très adapté pour du stockage pérenne sur seulement 50 ans et moins.
  3. le format des fichiers doit rester compréhensible par les futures générations de logiciels.

Quel que soit le niveau de qualité de chaque support, il est possible de répondre à toutes ces contraintes, mais à chaque fois avec un coût particulier.

Mais on a aussi des contraintes financières et technologiques

Tous ces éléments permettent d'attribuer à chaque technologie de stockage une note globale.

Ce tableau excel, issu de cette feuille de calcul fait la comparaison des technologies en notant chacune au final par son coût, car tout cela se ramène au final à un coût.
Par exemple : quelle que soit la fiabilité d'un support, il est possible de se prémunir des pannes, mais à un certain coût.
La conclusion de ce calcul, est que en 2015, vers 2To de données à stocker, les disques dur externes sont la meilleure solution.

Besoins de Stockage Online

Une façon saine est de traiter séparément ce besoin, pour ne pas influencer le choix de la technologie de stockage offline

A priori, le stockage online est fourni par un fournisseur de service internet, réputé et dont c'est le métier d'assurer un minimum la pérennité des données.

Il y a deux types de données à gérer.

Se pose alors le problème de la sauvegarde pérenne et tout aussi importante de ces liens.
Le problème est que ces liens vont être beaucoup plus dynamiques que les fonds eux même. Un archivage définitif ne me semble pas possible. Cela nécessite réflexion. FIXME

Liens hypertexte : En fait, aujourd'hui, la meilleure solution que je connaisse est un Wiki de type Dokuwiki. Technologie KISS idéale. Pas de base de données. Tout le contenu n'est tout simplement qu'un ensemble de fichiers texte. Ceci est un Dokuwiki. Je suis assez confiant sur la pérennité de cette technologie tellement elle est géniale. Elle est open source, elle permet un travail collaboratif. Ça permet de faire l'équivalent de Wikipedia. Mais il faut très bien en border l'utilisation. Il y a bien sur des limitation qui apparaissent à partir d'une certaine taille de wiki. Je ne sais pas trop combien de pages max on peut espérer pouvoir gérer efficacement. Backuper un Dokuwiki est très simple, il suffit de recopier quelques répertoires bien identifiés et toujours le mêmes. Pas grand chose en somme.

Si le stockage Offline est bien en mesure de garantir la pérennité des données sur le long terme, alors,

En reprenant 1 à 1 les besoins du stockage Offline, les réponses sont :

  1. trouver un média de stockage capable de stocker de façon pérenne
    • Même si la pérennité n'est pas garantie par le support online, il suffit de remettre online le backup offline en cas de pépin
  2. être résistant à la destruction catastrophique comme le feu, tsunami ou tremblement de terre
    • Si la destruction catastrophique n'est pas garantie par le provider, idem, il suffit de remettre online le backup offline en cas de pépin.
  3. il doit exister sur le long terme des matériels en mesure de lire le train binaire du média de stockage
    • le provider s'en charge, en offrant une interface FTP typiquement. Dans 50 ans ce sera peut-être un autre protocole, mais peu importe, on pourra encore télécharger le contenu.
  4. le format des fichiers doit rester compréhensible par les futures générations de logiciels.
    • Au pire cela pourrait se faire par une étape de conversion de formats de fichiers (de l'archive offline) avant upload online. L'espoir étant que, dans la mesure où les formats de fichiers d'origine sont simples, la conversion doit être faisable assez facilement.
  5. faible coût de gestion par an.
    • Devrait se limiter à l'abonnement à un provider. Mais ça peut vite grimper si la taille du fond dépasse les 500Mo.

Conclusion : pas de point problématique. A part peut-être le coût de gestion par an.

Les bons choix seraient d'après la littérature

Règles de nommage des fichiers et répertoires

Afin d'accroitre au maximum la pérennité des noms de fichiers et des noms de répertoires, voici quelques propositions

Nommages et organisation des fichiers pour les outils de traitement automatique

propositions

Encore une fois, des règles basiques à respecter

It's that simple yet many try to ignore the old ways which were learned at great expense.

Littérature

L'article très cité de Jeff Rothenberg dans le Scientific American de 1995 Ensuring the Longevity of Digital Information
Cette article présente la vision qu'on pouvait avoir en 1995, époque de la prédominance de microsoft.

Depuis, les choses ont changé. Les standards se sont assez stabilisés.

Une présentation par David S. H. Rosenthal 2009 / StanFord Universities Libraries How are we “Ensuring the Longevity of Digital Documents”?
C'est une critique (constructive) de la vision que Jeff Rothenberg a présenté dans l'article de Scientific American de 1995.
Attention, la présentation de Rosenthal est dans le contexte d'une préservation au niveau d'une société, pas de quelques individus. Le coût de la préservation au cas par cas est assez prohibitif.

Points clés certainement valables:

Rosenthal a je pense une vision un peu trop angélique des bienfaits de l'open source. Même s'ils permettent de stabiliser les formats, les progrès matériels pousseront à les faire évoluer. En fait c'est ce qui se passe encore actuellement avec les formats vidéo. Les formats texte image et son sont bien stabilisés maintenant.
Il ne traite pas de la problématique du stockage proprement dite. Elle est supposée résolue par les data centers (Disques durs en RAID essentiellement)
L'émulation a ses limites. A la quatrième génération d'émulateur, j'ai bien peur que le bousin deviennent totalement indébuggable.

Daté de 2004 : The Long-Term Storage Can o’ Worms A Guide to ensuring your equipment can still be built and maintained in years to come.

C'est un problème fondamental et ouvert.
Il y a pas mal de recherche sur le sujet, tant le problème est grand et concerne tout le monde.

Deux articles qui montrent qu'il y a bien sûr de la recherche dans le domaine. Même si ici, il ne s'agit pas d'avoir des médias ultra durables, mais plutôt d'assurer la pérénité des données par des échanges et duplications inter machines par le réseau
BitVault: a Highly Reliable Distributed Data Retention Platform (Microsoft)
Federated, Available and Reliable Storage for an Incompletely Trusted Environment (Microsoft)