====== Le Problème du Stockage de Données à Long Terme ====== Long Term Data Storage Problem\\ Les besoins sont *stockage offline de fonds documentaires numérisés *stockage online de ces fonds documentaires avec liens hypertextes (au moins un listing des documents). * documents texte, photos, audio, video Le seul consensus est que les Tablettes d'argile et le Parchemin sont les meilleurs supports pour la conservation à long terme de documents.\\ Il y a toujours un compromis entre densité de données et solidité.\\ Certains disent que les bandes magnétiques sont très bonnes. Mais cet avis peut être trompeur. Même si des bandes magnétiques ont survécu 25 ans, elle étaient magnétisées avec une densité de données bien plus faible que les standards actuels. Et certainement avec des matériaux ferromagnétiques différents de ce qui se fait aujourd'hui.\\ ===== Recommandations générales du GIS-DON concernant la préservation à long terme des données numériques (textes, documents, photos, enregistrements sonores, vidéos, etc.) ===== [[:ltdsp:media:gis_don:recommandations|Recommandations]] du GIS-DON \\ Source : https://www.lne.fr/fr/projets/gis-spadon \\ En trois documents, le GIS-DON fait une présentation de la problématique. Ils permettent de réaliser le coût et les efforts associés au stockage numérique. * {{:ltdsp:media:le-numerique-ephemere.pdf|}} local : [[:ltdsp:media:gis_don:le_numerique_ephemere|le numérique ephémère]] du GIS-DON * {{:ltdsp:media:disque-optique-numerique-de-confiance.pdf|}} local : [[:ltdsp:media:gis_don:disque_optique_numerique_de_confiance|disque-optique-numerique-de-confiance]] du GIS-DON * {{:ltdsp:media:recommandations-gis-don-conservation-donnees.pdf|}} local : [[:ltdsp:media:gis_don:recommandations|Recommandations]] du GIS-DON ===== Besoins de Stockage Offline ===== Tu as plusieurs besoins classiques de stockage offline - trouver un **[[ltdsp:media|media de stockage]]** capable de stocker de façon pérenne. - Il doit pour cela être assez résistant à l'usure du temps mais aussi à tout un tas de facteurs environnementaux - chaleur - froid - humidité, champignons - rongeurs - champs magnétiques - impulsions électromagnétiques - être **résistant à la destruction catastrophique** comme le feu, tsunami ou tremblement de terre. Seule solution : **des copies situées en plusieurs sites suffisamment éloignés**. - il doit exister sur le long terme des [[ltdsp:readers|matériels en mesure de lire le train binaire du média de stockage]] - ou alors, [[ltdsp:media:integrated_readers|le media de stockage contient le reader]]. C'est l'idéal pour des projets très ambitieux avec une perspective à très long terme (type time capsule). Mais ce n'est probablement pas très adapté pour du stockage pérenne sur seulement 50 ans et moins. - le **[[ltdsp:fileformats|format des fichiers]]** doit rester compréhensible par les futures générations de logiciels. Quel que soit le niveau de qualité de chaque support, il est possible de répondre à toutes ces contraintes, mais à chaque fois avec un coût particulier. Mais on a aussi des contraintes financières et technologiques *De quelle quantité de données parlons nous ? * en texte * en photos * en audio * en video *Quels moyens financiers avons nous ? On aimerait un faible coût de gestion par an. *Tout les combien de temps sommes nous prêts à changer de média de stockage ? (pour raison de maintenance préventive) *Tout les combien de temps allons nous devoir re-mettre en ligne le média de stockage (en raison de problèmes de perte de données par les providers internet) ? *à chaque remise en ligne, combien de temps pouvons nous consacrer à la remise en ligne (ce qui potentiellement comprend une numérisation, ocr) de chaque page de texte (2ko). Tous ces éléments permettent d'attribuer à chaque technologie de stockage une note globale. Ce [[ltdsp:media:cost_per_byte|tableau excel]], issu de {{:ltdsp:media:ltdsp.ods|cette feuille de calcul}} fait la comparaison des technologies en notant chacune au final par son coût, car tout cela se ramène au final à un coût.\\ Par exemple : quelle que soit la fiabilité d'un support, il est possible de se prémunir des pannes, mais à un certain coût. \\ La conclusion de ce calcul, est que en 2015, vers 2To de données à stocker, les disques dur externes sont la meilleure solution. ===== Besoins de Stockage Online ===== Une façon saine est de traiter séparément ce besoin, pour ne pas influencer le choix de la technologie de stockage offline\\ A priori, le stockage online est fourni par un fournisseur de service internet, réputé et dont c'est le métier d'assurer un minimum la pérennité des données.\\ Il y a deux types de données à gérer. * Les fonds proprement dits, ce sont les données brutes. Celles là peuvent être archivées sous un format de fichiers et une structure de répertoires définitives. La mise en ligne du fond consiste en la copie pure et simple de la racine du répertoire backup sur le serveur. Il faut tout faire pour que cela se résume à une copie brute. Au pire, la copie pourrait aussi passer par une étape de compression ou de conversion de certains fichiers pour prendre moins de place online (moins cher), ou être plus "compliant" avec les standards web du moment. * Mais il y a aussi le liant, c'est à dire les tables des matières, ou bien pour le sceau l'inventaire. Stocker Online, aujourd'hui, cela ne se limite pas à copier une arborescence de fichiers de monographies, images, documents sur un serveur. Le fond prend de l'intérêt à partir du moment où les documents sont référencés. Sur le web, cela se traduirait aujourd'hui en liens hypertexte. Comme dit plus haut, les liens inter documents peuvent au final avoir plus de valeur que les documents eux mêmes. Se pose alors le problème de la sauvegarde pérenne et tout aussi importante de ces liens.\\ Le problème est que ces liens vont être beaucoup plus dynamiques que les fonds eux même. Un archivage définitif ne me semble pas possible. Cela nécessite réflexion. FIXME \\ Liens hypertexte : En fait, aujourd'hui, la meilleure solution que je connaisse est un Wiki de type Dokuwiki. Technologie KISS idéale. Pas de base de données. Tout le contenu n'est tout simplement qu'un ensemble de fichiers texte. Ceci est un Dokuwiki. Je suis assez confiant sur la pérennité de cette technologie tellement elle est géniale. Elle est open source, elle permet un travail collaboratif. Ça permet de faire l'équivalent de Wikipedia. Mais il faut très bien en border l'utilisation. Il y a bien sur des limitation qui apparaissent à partir d'une certaine taille de wiki. Je ne sais pas trop combien de pages max on peut espérer pouvoir gérer efficacement. Backuper un Dokuwiki est très simple, il suffit de recopier quelques répertoires bien identifiés et toujours le mêmes. Pas grand chose en somme.\\ Si le stockage Offline est bien en mesure de garantir la pérennité des données sur le long terme, alors, En reprenant 1 à 1 les besoins du stockage Offline, les réponses sont : -trouver un média de stockage capable de stocker de façon pérenne * Même si la pérennité n'est pas garantie par le support online, il suffit de remettre online le backup offline en cas de pépin\\ -être résistant à la destruction catastrophique comme le feu, tsunami ou tremblement de terre *Si la destruction catastrophique n'est pas garantie par le provider, idem, il suffit de remettre online le backup offline en cas de pépin.\\ -il doit exister sur le long terme des matériels en mesure de lire le train binaire du média de stockage *le provider s'en charge, en offrant une interface FTP typiquement. Dans 50 ans ce sera peut-être un autre protocole, mais peu importe, on pourra encore télécharger le contenu. -le format des fichiers doit rester compréhensible par les futures générations de logiciels. * Au pire cela pourrait se faire par une étape de conversion de formats de fichiers (de l'archive offline) avant upload online. L'espoir étant que, dans la mesure où les formats de fichiers d'origine sont simples, la conversion doit être faisable assez facilement. -faible coût de gestion par an. *Devrait se limiter à l'abonnement à un provider. Mais ça peut vite grimper si la taille du fond dépasse les 500Mo. Conclusion : pas de point problématique. A part peut-être le coût de gestion par an. Les bons choix seraient d'après la littérature \\ * Licenses Creative Commons * Technologie KISS : Keep It Simple Stupid. * Open Source ===== Règles de nommage des fichiers et répertoires ===== Afin d'accroitre au maximum la pérennité des noms de fichiers et des noms de répertoires, voici quelques [[ltsdp:nommage|propositions]] ===== Nommages et organisation des fichiers pour les outils de traitement automatique ===== [[ltsdp:nommage#organisation|propositions]] ===== Encore une fois, des règles basiques à respecter ===== *Many copies. *Write protected media where you have to command erasure. *Off site copies. *Test of the system (wipe out a machine and see if you can put it back in operation from backups.) It's that simple yet many try to ignore the old ways which were learned at great expense. ===== Littérature ===== L'article très cité de Jeff Rothenberg dans le Scientific American de 1995 {{:ltdsp:litterature:ensuring_the_longevity_of_digital_information.pdf|Ensuring the Longevity of Digital Information}}\\ Cette article présente la vision qu'on pouvait avoir en 1995, époque de la prédominance de microsoft. Depuis, les choses ont changé. Les standards se sont assez stabilisés. Une présentation par David S. H. Rosenthal 2009 / StanFord Universities Libraries {{:ltdsp:litterature:rosenthal_slides072709.pdf|How are we “Ensuring the Longevity of Digital Documents”?}}\\ C'est une critique (constructive) de la vision que Jeff Rothenberg a présenté dans l'article de Scientific American de 1995.\\ Attention, la présentation de Rosenthal est dans le contexte d'une préservation au niveau d'une société, pas de quelques individus. Le coût de la préservation au cas par cas est assez prohibitif. Points clés certainement valables: *Lots of copies keep stuff safe *Il ne faut pas espérer convertir les fichiers aux nouveaux formats gérés par les générations de logiciels successives (word par exemple) *La tendance est au Online. Les stockages Offline ne sont utilisés que de façon temporaire. *La duplication ne pose plus de problèmes techniques car peu importe le média de stockage, il suffit d'obéir au protocole de communication (FTP etc...) *Pour les mêmes raisons, la migration est possible de par la conception du système *Il semblerait que l'obsolescence des formats standards n'arrive presque jamais. *Jeff s'était trompé sur tous les points. *Préférer la technologie KISS : Keep It Simple Stupid. C'est aussi mon vade me cum. //The unavoidable price of reliability is simplicity. (C. Hoare)// *Leçon de Google : il y a plus de valeur dans les liens entre les documents, que dans les documents eux même : la mise en ligne avec liens hypertextes est un must. *Don't take my word. * //First//, it is clear that digital information is at risk of being lost as current practices cannot preserve it reliably for the long-term, especially in the datacenter. * //Second//, the explosion of the mount of information and data being kept long-term make the cost and complexity of keeping digital information and periodically migrating it prohibitive. **Storage Networking Industry Association** Rosenthal a je pense une vision un peu trop angélique des bienfaits de l'open source. Même s'ils permettent de stabiliser les formats, les progrès matériels pousseront à les faire évoluer. En fait c'est ce qui se passe encore actuellement avec les formats vidéo. Les formats texte image et son sont bien stabilisés maintenant.\\ Il ne traite pas de la problématique du stockage proprement dite. Elle est supposée résolue par les data centers (Disques durs en RAID essentiellement)\\ L'émulation a ses limites. A la quatrième génération d'émulateur, j'ai bien peur que le bousin deviennent totalement indébuggable. Daté de 2004 : {{:ltdsp:litterature:micross_technical_booklet-long-term_storage_can_o_worms.pdf|The Long-Term Storage Can o’ Worms}} A Guide to ensuring your equipment can still be built and maintained in years to come.\\ C'est un problème fondamental et ouvert.\\ Il y a pas mal de recherche sur le sujet, tant le problème est grand et concerne tout le monde. Deux articles qui montrent qu'il y a bien sûr de la recherche dans le domaine. Même si ici, il ne s'agit pas d'avoir des médias ultra durables, mais plutôt d'assurer la pérénité des données par des échanges et duplications inter machines par le réseau\\ {{:ltdsp:litterature:osr07_bitvault.pdf|BitVault: a Highly Reliable Distributed Data Retention Platform}} (Microsoft)\\ {{:ltdsp:litterature:adya02farsite.pdf|Federated, Available and Reliable Storage for an Incompletely Trusted Environment}} (Microsoft)