Formats de fichier recommandés pour que vos archives numériques restent lisibles

Uit Tracks
Versie door Juliette Wanlin (overleg | bijdragen) op 16 jul 2024 om 08:49 (Nieuwe pagina aangemaakt met '==== TIFF ====')
Naar navigatie springen Naar zoeken springen

Pour que vos archives numériques restent lisibles à long terme, il est important de stocker vos fichiers dans un format durable. En effet, certains formats de fichiers peuvent, avec le temps, rendre vos documents illisibles.
Grâce à cet outil, vous apprendrez :

  • Qu'est-ce que l'obsolescence numérique et comment l'éviter ;
  • Qu'est-ce qu'un format de fichier ;
  • Pourquoi vous devriez utiliser un format de fichier durable pour vos documents numériques ;
  • Quels sont les formats de fichier qui conviennent en tant que format durable.

Vos archives numériques ont de bons back-ups. Ou tout est dans le cloud ? Bien, vous avez encore tous vos fichiers numériques. Pourrez-vous encore les ouvrir ? Nous espérons que votre affiche peut également être trouvée dans un format différent de ce fichier PageMaker de 1994, pour lequel il n'y a plus de logiciel disponible. Vous l'aurez compris, une archive numérique ne se préserve pas toute seule.

Le problème de l'obsolescence numérique

L'obsolescence numérique se produit lorsqu'un fichier est si ancien que le logiciel permettant de l'ouvrir n'est plus disponible, à moins que vous ne procédiez à un travail d'archéologie numérique (qui demande beaucoup de temps). Même si le logiciel existe toujours, il y a de fortes chances que des versions plus récentes du logiciel affichent différemment les anciennes versions de fichiers.

La durabilité d'un logiciel est déterminée par :

  • Le degré de rétrocompatibilité : dans quelle mesure une nouvelle version du logiciel peut-elle encore lire des versions antérieures de fichiers ?
  • La complexité du logiciel : plus le logiciel est complexe, plus il est difficile de garantir la rétrocompatibilité.
  • Sa distribution sur le marché ou dans la communauté : un marché important garantit qu'il y a plus de logiciels pour lire les fichiers.
  • Sa documentation ouverte : si son code source est consultable, les programmeurs peuvent continuer à développer des logiciels pour lire le format de fichier. En utilisant des formats de fichiers ouverts, vous réduisez le risque de devenir dépendant de certaines technologies ou de certains fournisseurs.

Le format de fichier définit la manière dont les informations contenues dans un fichier informatique sont codées. Il est souvent indiqué par une extension dans le nom du fichier. Un codec est un logiciel ou un matériel qui permet d'encoder et de décoder des données, ou de les compresser et de les décompresser. Pour obtenir un aperçu des formats de fichiers présents dans vos archives numériques, vous pouvez utiliser DROID.

Les autres menaces

Pour les fichiers image et vidéo, la compression peut éventuellement devenir un problème. Par exemple, les photos sont massivement stockées en JPEG alors que ce format fonctionne avec un algorithme de compression intensif. Vous ne pouvez pas le voir à l'œil nu, mais cela pose des problèmes lorsque vous migrez la photo vers un nouveau format. Vous le faites par exemple lorsque vous importez la photo dans un logiciel de traitement d'images tel que Photoshop.

Gardez également à l'esprit le problème des fichiers qui se réfèrent les uns aux autres. Par exemple, un fichier InDesign ne contient pas les images, mais renvoie à des images situées ailleurs sur votre disque. Lorsque les fichiers sont déplacés, la connexion est perdue.

Comment choisir le bon format de fichier ?

Le maintien de la lisibilité des archives numériques consiste essentiellement en une migration continue des anciens fichiers vers les formats de fichiers actuels (ce que nous appelons une "stratégie de migration"), ou en la copie ou émulation d'un ancien environnement informatique sur l'environnement informatique actuel, de sorte que les anciens logiciels puissent encore fonctionner (ce que nous appelons une "stratégie d'émulation").

Ces deux stratégies sont très complexes à long terme et sont souvent l'affaire de spécialistes. En tant qu'artiste ou organisation artistique, il est préférable de se concentrer d'abord sur le choix d'un format de fichier ouvert et bien documenté lors de la création de votre document. C'est la meilleure garantie pour que vos archives numériques restent lisibles à long terme. Vous pouvez également miser sur plusieurs chevaux en sauvegardant également des images ou des PDF de modèles 3D complexes, par exemple. Deuxièmement, vous pouvez vérifier s'il existe des fichiers potentiellement "en danger" parmi le matériel numérique existant. Si c'est le cas, n'hésitez pas à contacter l'un des partenaires du réseau TRACKS pour obtenir des conseils plus personnalisés.

Vous trouverez ci-dessous un aperçu de conseils par type de fichier.

Documents de traitement de texte

Exemples : DOC, DOCX, ODT, TXT, RTF

Il est préférable d'enregistrer les documents de traitement de texte en format ODT ou, lorsque le document ne doit plus être modifié, en format PDF. Depuis Word, il est facile d'enregistrer des fichiers en ODT ou en PDF. Dans ce dernier cas, ne choisissez pas la fonction "print-to-pdf". Elle est de moins bonne qualité que la fonction "publier" ou "exporter". De même, choisissez toujours le profil d'archivage PDF : PDF/A. Ce profil d'archivage peut être choisi dans Word dans les paramètres de stockage des fichiers PDF. L'enregistrement des fichiers dans la dernière version de Word (fichiers DOCX) dans le format d'origine n'est pas une solution idéale, bien que les risques soient actuellement très faibles.

ODT

ODT (Open Document Text) est la variante open source de DOC et DOCX. Il s'agit d'un format ouvert pour le texte formaté et il est donc préférable.

PDF

Les fichiers PDF peuvent (à moyen terme) être simplement conservés au format PDF. Dans la mesure du possible, veillez à ce que tout PDF créé au sein du bureau soit sauvegardé dans un profil d'archivage PDF (de préférence PDF/A ou, dans le cas des plans de construction, PDF/E).

Images matricielles

Exemples : TIFF, JPEG, GIF, PNG, PSD, BMP

Une image matricielle ou bitmap est une image sous forme numérique, où la couleur de chaque pixel est enregistrée. L'inconvénient d'une image matricielle est que, lorsqu'elle est agrandie, les pixels individuels deviennent visibles. Pour éditer les images matricielles, il existe des programmes bitmap. L'homologue d'une image matricielle est l'image vectorielle.

Un exemple d'image matricielle est une prise de vue avec un appareil photo numérique qui enregistre l'image avec une puce d'image, qui contient une grille de pixels.

TIFF

En général, le format TIFF est recommandé comme format de stockage durable pour les images matricielles. Il est préférable de ne pas compresser les images. En effet, l'utilisation de la compression (lossy) entraîne une perte de qualité lors de l'édition de l'image. Par conséquent, veillez à ce que les photographies ayant une valeur artistique, utilisées pour la communication et la présentation, soient livrées et sauvegardées dans un format TIFF non compressé.

Il existe plusieurs profils TIFF. Le profil de base non compressé IBM TIFF v6.0 est considéré comme le plus durable. Veillez à utiliser un profil RGB comme espace colorimétrique, si possible AdobeRGB ou ecirgb-v2. Il est également préférable de donner aux fichiers Photoshop un équivalent au format TIFF, mais de conserver le fichier original avec les informations sur les couches si vous souhaitez le modifier ultérieurement.

JPEG

Pour les photos prises pour documenter un spectacle ou un événement public, il n'y a aucun problème à utiliser le format JPEG. N'utilisez pas de formats exotiques ou obsolètes, tels que BMP (Bitmap).

PNG

PNG est un format d'image ouvert qui utilise la compression sans perte (aucune information sur l'image n'est perdue). Le PNG est utilisé pour les publications et les présentations en ligne de haute qualité ou pour les logos et les graphiques.

Images vectorielles en 2D

Exemples : AI, SVG, EPS

Une image vectorielle est une représentation graphique composée d'objets géométriques simples, tels que des points, des lignes, des courbes, des polygones, etc. Les formes complexes sont créées par des combinaisons de ces formes de base. L'image est décrite par les formules des objets. Par conséquent, contrairement à une image matricielle ou bitmap, où chaque pixel de la toile numérique est coloré séparément, les images vectorielles peuvent être agrandies à n'importe quelle taille sans perte de qualité. La résolution pour l'échelle choisie est alors fixe, ce qui rend l'image floue ou en bloc lorsqu'elle est agrandie.

Par exemple, la description d'une image vectorielle peut indiquer qu'un cercle d'une certaine couleur et d'une certaine taille doit être dessiné au-dessus d'un texte. La taille absolue du texte et du cercle ne sera pas fixée, seule la relation entre eux le sera. Grâce à cette flexibilité, les images vectorielles peuvent être affichées à n'importe quelle taille tout en conservant la même résolution (la densité de l'information).

SVG

En général, le format SVG est recommandé comme format de fichier durable pour les dessins vectoriels. Par conséquent, il convient de toujours fournir un équivalent SVG des images vectorielles finales.

Fichiers texte

Exemple : TXT

Les fichiers texte peuvent simplement être enregistrés en tant que fichiers texte. Notez que le texte peut être codé de différentes manières (ex. ANSI, ASCII et UTF-8). Dans la mesure du possible, essayez de vous assurer que les fichiers texte sont encodés en UTF-8.

Fichiers de présentation

Exemples : PPT, PPTX

Ces fichiers peuvent être conservés dans leur format d'origine à moyen terme. Le format PDF est un format plus durable, c'est pourquoi il convient de migrer les présentations terminées vers ce format. Le format PPT, quant à lui, est dépassé. Veillez donc à ce que les fichiers PPT aient également un équivalent en PPTX ou PDF. Choisissez PDF/A.

Spreadsheets feuilles de calcul

Exemples : XLS, XLSX, ODS

Il n'existe pas de solution définitive au sein de la communauté des archivistes pour les spreadsheets. XLSX et ODS sont toutefois considérés comme suffisamment durables. XLS est obsolète. Il est recommandé d'identifier les feuilles de calcul XLS importantes dans les archives et de créer un équivalent en ODS et XLSX.

Fichiers vidéo

Exemples : AVI, FLV, MOV, MPEG-1, MPEG-2, MPEG-4, SWF, WMV

Video's duurzaam bewaren is een taak van specialisten. Wanneer je echter video's bestelt, kan je van de leveranciers eisen dat ze hun video's aanleveren in duurzame formaten. MKV is in principe het meest duurzame formaat voor de opslag van video. Ook MXF, AVI en MOV zijn duurzame formaten. Bestandsformaten voor audio en video zijn slechts containers voor de video- en audiostreams. Het is ook belangrijk om te bepalen hoe video en audio dienen te worden geëncodeerd. Binnen de archief- en erfgoedsector wordt algemeen de FFV1-codering gekozen. Voor audiostreams wordt aangeraden deze te coderen in LPCM. Zorg ervoor dat zowel het bestandsformaat als de video- en audiostream niet zijn gecomprimeerd. Dit leidt vaak tot grote bestanden (voor FFV1: 45-50 GB per uur video!!), dus pas het vooral toe bij waardevolle video's, waarin veel geld geïnvesteerd is.

Voor minder belangrijke video's kunnen lagere kwaliteitsnormen in acht worden genomen. De videocodec’s h.262 en h.264 worden bijvoorbeeld veel gebruikt in het MP4-formaat. Een goed overzicht voor het duurzaam opslaan van videobestanden is na te lezen op SCART

Audiobestanden

Voorbeelden: AC3, AIFF, MP3, WAV, WMA

Belangrijke audiobestanden sla je het beste op in het WAV-formaat. Ook FLAC en AIFF gelden als duurzame formaten. Maak gebruik van LPCM voor de codering van het geluidssignaal. MP3 kan gebruikt worden als raadplegingsformaat of voor minder belangrijke audiobestanden, bv. wanneer je audiobestanden via je website wil ontsluiten.

Mailbestanden

Voorbeelden: PST, MBOX, MSG

Mails kunnen op verschillende manieren worden bewaard. Indien volledige mailboxen worden bewaard kan best worden geopteerd voor het MBOX-formaat. Het is echter aan te raden om belangrijke mails met hoge informatieve waarde voor het project ook apart op te slaan in het projectdossier. Hiervoor kan best het EML-formaat dienen. Sla bijlagen ook steeds apart op van de e-mail. Gmail beschikt over functies om e-mails te exporteren of op te slaan in EML en MBOX. Outlook maakt gebruik van applicatieafhankelijke formaten, zoals PST en MSG, die niet duurzaam zijn. Om Outlook-mailboxen op te slaan, kan daarom best gebruik worden gemaakt van een e-mailclient als Thunderbird (zie tool Hoe archiveer je e-mails?).

Websites

Websites zijn in wezen dynamische informatiegehelen, die voortdurend veranderen. Alle informatie capteren kan dan ook maar door op gezette tijdstippen snapshots te nemen van je website, ongeveer zoals the Internet Archive dat doet (archive.org). Let wel: het is niet voldoende om enkel te vertrouwen op the Internet Archive. De snapshots van deze dienst zijn zelden volledig. Bovendien is het relatief eenvoudig om deze zelf aan te maken. Een snapshot van een website is een "statische kopie" van alle HTML-pagina's waaruit de website bestaat, samen met alle afbeeldingen, style sheets enz. Het systeem waarop de website draait (vaak een content management systeem als Drupal of Wordpress) wordt in zo'n geval niet mee gearchiveerd. Het archiveringsformaat voor websites is WARC. In de tool Hoe archiveer je websites? vind je strategieën voor het opslaan van websites.

De mate waarin je websites effectief kunt archiveren, is vaak afhankelijk van de technologie die wordt gebruikt. Flash-code is bijvoorbeeld erg moeilijk om te archiveren. De mate waarin je website archiveerbaar is, kan gemeten worden op archiveready.com. Indien je nieuwe websites ontwikkelt, probeer er dan in de mate van het mogelijke voor te zorgen dat ze later eenvoudig archiveerbaar zijn.

Databases

Databases bestaan in verschillende vormen en functies. Een databank archiveren gaat er in essentie om dat de informatie in de database geëxporteerd wordt in een vorm, zodat deze in een nieuwe database kan worden geïmporteerd. Vaak gaat het om Excel-tabellen, CSV-bestanden of XML-bestanden, maar ook andere databestanden zijn mogelijk. Belangrijk is dat er goed gedocumenteerd wordt hoe de databank in elkaar zat. Dezelfde opmerking geldt hier als bij websites: bouw databases zo op, dat de informatie er gemakkelijk uitgehaald kan worden in vormen die eenvoudig in andere databanken kunnen worden geïmporteerd.

2D CAD

Voorbeelden: DWG, DXF, VWX, DGN

2D-CAD-bestanden kunnen het best worden opgeslagen in een formaat dat algemeen gebruikt en makkelijk te openen is. Voor CAD-tekeningen in 2D is dit meestal DWG of DXF. Voor architecten die geen gebruik maken van Autodesk-producten is het aangeraden om tekeningen met een uitgewisselde en gepubliceerde status in DWG of DXF op te slaan. Zorg dat bestanden die naar elkaar refereren (zoals xref's of plotstyle-bestanden) bij elkaar staan (via AutoCAD kan dit bv. worden gerealiseerd via de etransmit-functie). In veel gevallen worden tekeningen in 2D-CAD ook naar pdf omgezet. Blijf deze pdf’s behouden. Niet alleen hebben ze een juridische waarde, de duurzaamheid van PDF is momenteel veel groter dan die van enige CAD-bestand. PDF's worden op dit moment meestal via de plot- of printfunctie gecreëerd. Programma's als AutoCAD en Vectorworks voorzien echter in de mogelijkheid om tekeningen rechtstreeks te exporteren naar pdf. De pdf's kunnen in dat geval meer informatie bevatten, de kans op fouten bij pdf-creatie verkleint en het geeft ook meer controle aan de tekenaar over welke elementen nu precies in de tekening moeten komen. Kies voor PDF/A of PDF/E.

3D CAD

Voorbeelden: DWG, DXF, VWX, DGN, SKP, 3DM

CAD-bestanden kunnen het best worden opgeslagen in een formaat dat algemeen gebruikt en makkelijk te openen is. Voor CAD-tekeningen in 3D is een dergelijk formaat echter nauwelijks voorhanden. Bewaar 3D-modellen daarom in hun oorspronkelijke formaat, maar documenteer wel de software en de versie van de software waarmee het bestand is gemaakt en documenteer ook de system requirements ervan. Er zijn immers gevallen bekend waarbij een 3D-CAD-bestand anders wordt weergegeven na een versie-update van de software. Om technische 3D-modellen uit te wisselen en te publiceren werpt IFC zich steeds meer op als de industriestandaard. IFC is open gedocumenteerd en duurzaam, maar hou er rekening mee dat de vertaalslag van 3D-model naar IFC steeds een zeker verlies inhoudt.

3D modeling files

Voorbeelden: 3DS, VRML, X3D, U3D, BLEND

De variatie in 3D modeling files is te groot om algemene uitspraken te doen over hun preservatie. X3D en U3D zijn duurzame bestandsformaten, maar deze bestanden zijn niet geschikt als duurzaam formaat voor alle 3D-modellen. Bewaar daarom net als voor 3D-CAD de bestanden in hun oorspronkelijke formaat, met documentatie van de oorspronkelijke software. Vaak worden 3D-modellen gemaakt om andere documenten te produceren, zoals renders in 2D. Voor dergelijke documenten gelden dezelfde aanbevelingen als voor beeldbestanden. In sommige gevallen is een 3D-model geen bestand, maar een executable, zoals bij modellen in Unity. Documenteer in dat geval zeker de system requirements van de executable. Het is een goede optie om 3D-scènes te documenteren via snapshots of video's (bv. schermopnames).

Bladmuziek

De aangeraden formaten voor het bewaren van digitale bladmuziek zijn PDF/A, TIFF of MusicXML. Het formaat waar je voor kiest is afhankelijk van het beoogde gebruik.

PDF/A en TIFF zijn goede formaten voor het bewaren en lezen van documenten. Je behandelt deze net zoals je eender welk ander document in pdf of afbeelding in TIFF zou bewaren. MusicXML is een open formaat dat het mogelijk maakt om bladmuziek te noteren en te bewerken. Dit betekent dat je de informatie die achter de noten genoteerd staat, bewaart en eenvoudig kan aanpassen. Dit is wel minder handig voor het lezen en uitvoeren van muziek. In dat geval kan de partituur best worden opgeslagen naar PDF/A of TIFF.


Auteurs : Wim Lowet (VAi) et Nastasia Vanderperren (meemoo)