ltdsp:fileformats

Le format des fichiers doit rester compréhensible par les futures générations de logiciels

Une discussion à ce sujet : http://www.zdnet.com/blog/storage/long-term-personal-data-storage/376

Ici on évoque le format des documents qui constituent le(s) fond(s).
Il ne s'agit pas des documents qui pointent vers les documents du fond, comme des les liens HTML, des bases de données qui listent les documents ou les feuilles de calcul (excel par exemple) qui listent les documents.

Il semblerait que l'obsolescence des formats ultra standard n'arrive presque jamais. C'est la tendance depuis trente ans.

Depuis quelques années il y a eu une évolution très favorable vers la standardisation des format de fichiers bureautique, à un format ouvert (i.e. non propriétaire). On a enfin réussit à se débarrasser de l'emprise de microsoft
C'est OpenDocument 1.1. ISO/IEC 26300:2006/Amd 1:2012, géré par les suites bureautique open source comme libre office, open office, mais aussi microsoft office 2010+ !

Tous les documents doivent être stockés à leur format original. Cependant, ce n'est pas suffisant. Si le format original n'est pas dans la liste ci dessous, il doit être aussi stocké sous la forme convertie en l'un des formats suivants. Par ordre de préférence décroissante. La condition première étant que le nouveau format ne dégrade pas la mise en page.
De plus, je recommanderais que dès lors que le document possède de la mise en page, il soit aussi converti au format OpenDocument. Il y aurait ainsi potentiellement à stocker, 3 versions du document.

  • Texte (traitement de texte, texte brut, Parchemin, Papier, etc…) :
    • par ordre de préférence décroissante, la condition première étant que le format ne dégrade pas la mise en page du document original.
    • ASCII (pas de caractères accentués possibles, donc pas applicable pour du texte en Français). Format texte “brut”, sans images ou mise en page. Extension du fichier : .txt. ONLINE & OFFLINE
    • UTF8 ISO/CEI 10646 et standard Unicode. Format texte “brut”, sans images ou mise en page. Extension du fichier : .txt ONLINE & OFFLINE
    • PDF/A-1a : La spécification PDF/A-1 a été publiée par l'ISO et est utilisée par les organismes de normalisation du monde entier pour garantir la sécurité et la fiabilité de la diffusion et des échanges de documents électroniques. Les sphères publique et privée ont massivement adopté ce format pour simplifier les échanges de document. Le principal avantage de ce format est que les fichiers au format PDF/A-1 sont fidèles aux documents originaux : les polices, les images, les objets graphiques et la mise en forme du fichier source sont préservés, quelles que soient l'application et la plate-forme utilisées pour le créer. Un standard recommandé par le GIS-DON. Extension du fichier : .pdf ONLINE & OFFLINE
    • PDF/A-1b. Extension du fichier : .pdf ONLINE & OFFLINE
    • PDF/A-2a. Extension du fichier : .pdf ONLINE & OFFLINE
    • PDF/A-2b. Extension du fichier : .pdf ONLINE & OFFLINE
    • OpenDocument 1.1. ISO/IEC 26300:2006/Amd 1:2012. Extension du fichier : .odt OFFLINE seulement
    • JPEG : Pour le papier, SCAN au moins dans un premier temps. La résolution mini des scan ? FIXME 300dpi ? Extension du fichier : .jpg ou .jpeg ONLINE & OFFLINE . A terme, le PDF/A-1 après OCR pourrait être la bonne méthode pour le ONLINE.
  • Feuilles de calcul : OpenDocument 1.1. ISO/IEC 26300:2006/Amd 1:2012. Typiquement, l'extension des fichiers est .ods
  • Images (photos sur papier photo, fichiers image)
    • PNG : Pour les fichiers uniquement déjà à ce type de format dès l'origine. Extension du fichier : .png ONLINE & OFFLINE
    • JPEG : Pour les photos. De plus pour les JPEG issus de Scanner, la résolution mini des scan ? FIXME 300dpi ? Extension du fichier : .jpg ou .jpeg ONLINE & OFFLINE
    • Impression professionnelle (qualité à checker avec le professionnel) OFFLINE bien sûr
  • Son : à mitiger selon les moyen financiers disponibles.
    • WAV : PCM non compressée la plus basique Waveform Audio File Format (Stereo 16 bits 44.1Khz) OFFLINE
    • MP3 (128 Kbits/s pour de la voix, 196 Kbits/s pour de la musique, bitrate constant) ONLINE & OFFLINE
  • Video : MJPEG2000 ? FIXME “MJPEG2000 is the format chosen by the Library of Congress and is the basis for format used in the Digital Cinema Initiative. Translation: it has massive dollars and content repositories behind it.” OFFLINE
  • Bases de données : OpenDocument 1.1. ISO/IEC 26300:2006/Amd 1:2012. Typiquement, l'extension des fichiers est .odb ONLINE & OFFLINE

Les feuilles de calculs ne doivent pas être stockées en pdf tout simplement parce qu'elles effectuent des calculs paramétrables !

Le passage à OpenDocument 1.2 sera acceptable lorsque le format aura été géré par la totalité des logiciels. Mais cela n'apportera pas forcément quoi que ce soit.

Le format ODF “Open Document Format for Office Applications (ODF)” est un format ouvert de données pour les applications bureautiques : traitements de texte, tableurs, présentations, diagrammes, dessins et base de données bureautique. OpenDocument est la désignation d'usage d'une norme dont l'appellation officielle est OASIS Open Document Format for Office Applications, également abrégée par le sigle ODF.

La vidéo est le type de contenu qui pose le plus de problèmes car les performances matérielles des caméras évoluent depuis 30 ans et continuent d'évoluer. Ce qui amène à faire à chaque fois des algorithmes de compression plus performants ou bien des formats nouveaux spécifiques pour les nouvelles caméras. Quand par exemple les caméras seront en relief, il risque bien de sortir un nouveau format.

Pour le stockage Offline, on préfèrera les formats les moins compressés possibles.
A balancer avec le coût de stockage par MB du support de stockage offline.
Comme il y a typiquement une très grosse différence de coût entre le stockage offline et le stockage online, on peut aussi envisager que les formats de fichiers offline soient non compressés et qu'ils soient compressés à la mise online.

http://www.zdnet.com/blog/storage/long-term-personal-data-storage/376
A 100,000 hour video archive I spoke to Sam Gustman, the Chief Technology Officer of the USC Shoah Foundation Institute for Visual History and Education. The Foundation Archive . . . contains nearly 52,000 visual history testimonies of survivors and other witnesses of the Holocaust videotaped in 56 countries and in 32 languages. They have over 100,000 hours of video on 235,000 tapes. Taping started some 20 years ago, so they've been dealing with the media and format issues for years. USCSF is transferring all their original tapes - many in now-obsolete formats like BetaSP and VHS - to the 75Mbit motionJPEG2000 format. MJPEG2000 is the format chosen by the Library of Congress and is the basis for format used in the Digital Cinema Initiative. Translation: it has massive dollars and content repositories behind it. In addition they are also making copies of all tapes in 5Mbit MPEG-2, Flash, QuickTime and Windows Media. The latter are heavily compressed for serving over the web and dispersing copies to other sites. The complete archive requires 8,000 Terabytes of capacity on 2 high-end Sun StorageTek tape silos - each costing about million bucks. Every 3 years they copy everything to new tapes to ensure preservation. They also maintain a set of tapes at an offsite repository in Pennsylvania - just in case the Big One hits LA.

  • ltdsp/fileformats.txt
  • Dernière modification : 2015/08/06 00:31
  • de lcdvasrm