Les checksums comme moyen de contrôler l'intégrité des fichiers
Les fichiers numériques sont vulnérables et peuvent être perdus ou subir des modifications indésirables à brève échéance. Grâce aux checksums, vous pouvez détecter cette perte d'informations et vérifier si vos fichiers correspondent toujours à vos sauvegardes.
Grâce à cet outil, vous apprendrez :
- Qu'est-ce que le bitrot et quelles en sont les causes ;
- Qu'est-ce qu'une checksum et à quoi elle sert ;
- Comment créer des checksums.
Les fichiers numériques sont vulnérables, non seulement en raison de l'évolution rapide de la technologie, mais aussi parce que tous les supports numériques ne sont pas fiables pour la conservation à long terme s'ils ne sont pas liés à des procédures de back-up et de contrôle appropriées (entre autres). Sans précautions appropriées, les données numériques peuvent être perdues ou modifiées involontairement, même à court terme. Ce phénomène est appelé bitrot. Il est souvent causé par l'usure mécanique du support ou par une modification de sa composition chimique. C'est pourquoi il est toujours nécessaire de disposer d'une copie identique en guise de back-up. Toutefois, des erreurs lors de la copie de fichiers peuvent également entraîner une perte de données, par exemple lors de la réalisation d'un back-up.
Une checksum vous permet de détecter de telles erreurs ou pertes d'informations. La checksum est l'empreinte numérique d'un fichier, un numéro de contrôle attribué aux fichiers. Dès qu'un élément des fichiers est modifié, le logiciel de checksums génère un nouvel ensemble de chiffres. En d'autres termes, chaque fichier modifié reçoit un nouveau numéro de checksum. Il vous indique, lorsque le support se détériore, quand remplacer le fichier original par le back-up et vous permet de vérifier que la sauvegarde est une copie identique de l'original. Toute personne souhaitant archiver durablement des fichiers numériques doit, sans exception, créer de telles checksums et les vérifier régulièrement.
Comment utiliser des checksums ?
Le principe d'une checksum ou d'un numéro de vérification est très simple : un calcul est effectué sur une chaîne de lettres ou de chiffres à l'aide d'un algorithme, ce qui donne une nouvelle chaîne plus courte. En refaisant ce calcul par la suite et en le comparant au résultat précédent, il est possible de vérifier si la chaîne est toujours correcte.

En informatique, cette technique est utilisée dans la communication et le stockage des données. Elle consiste à exécuter un algorithme sur une série de bits, l'ensemble des uns et des zéros qui composent essentiellement chaque fichier numérique. Lorsqu'un de ces bits change, il produit une somme de contrôle différente et il est clair que quelque chose ne va pas dans le fichier. Une telle somme de contrôle peut être calculée sur n'importe quel ensemble de bits, donc également sur une image numérique ou un fichier texte.
MD5
Le Message Digest Algorithm 5 (MD5) donne une checksum de 32 caractères. Chaque caractère est composé de chiffres allant de 0 à 9 et de lettres allant de a à f, ex. 5adb6b18a918913e279761a06e5ba73a. Cette composition 1632 ou 2128 permet différentes combinaisons. La probabilité que deux fichiers donnent la même somme de contrôle est extrêmement faible. Avec une checksum MD5, vous pouvez créer une empreinte quasi unique de chaque fichier.
Conçu à l'origine comme un algorithme de sécurité, MD5 s'est avéré trop vulnérable pour cela. Cependant, il reste suffisant comme outil de contrôle, par exemple lorsqu'il est utilisé pour des archives numériques. Les checksums MD5 sont créées avant ou pendant l'inclusion des fichiers dans les archives numériques. À intervalles réguliers et/ou lors de la consultation d'un fichier, les checksums créées précédemment sont utilisées pour vérifier si le fichier est toujours complet et inchangé (et donc non corrompu).
Ceci est important car les fichiers numériques sont souvent stockés en grandes quantités et il n'est pas possible d'aller inspecter visuellement chaque fichier. De plus, dans la plupart des cas, une inspection visuelle de tous les fichiers individuels ne fournirait pas une preuve suffisante que l'intégrité des fichiers stockés est inchangée. Si une vérification de la checksum MD5 révèle que l'intégrité d'un fichier numérique a été altérée, vous devez revenir au back-up (non altéré) et remplacer le fichier altéré par une copie exacte de cette sauvegarde.
Checksum tools
Om MD5-checksums te gebruiken zijn een groot aantal – gratis – programma’s beschikbaar. Het principe is steeds hetzelfde en even eenvoudig: het programma creëert checksums van een aantal bestanden. Het resultaat is een klein tekstbestand, dat je samen met de bestanden bewaart. Wanneer je de bestanden wil controleren, vergelijkt het programma de nieuwe checksums met die in het tekstbestand. Wil je zeker zijn dat gegevens door bv. slijtage van de drager niet samen met het bestand verloren gaan, dan kan je het tekstbestandje ook op een andere locatie (bv. een externe harde schijf) opslaan.
Enkele voorbeelden van checksum tools:
Hou er rekening mee dat er regelmatig nieuwe checksum tools verschijnen, en dat de ondersteuning van oudere checksum tools op een gegeven ogenblik mogelijk stopt. De MD5-checksums zelf zijn echter niet afhankelijk van een bepaalde checksum tool.
De keuze voor een bepaalde checksum tool kan bepaald worden door verschillende factoren. Niet elke checksum tool draait onder alle besturingsprogramma’s of versies ervan; naargelang je gebruiker bent van Windows, Mac OS X of Linux, of een bepaalde versie ervan, kan het nodig zijn om een andere tool te kiezen. Ook niet alle tools hebben een grafische gebruikersinterface. Tools die enkel met een command line werken kunnen sommige gebruikers afschrikken. Sommige checksum tools bieden ook meer uitgebreide of andere gebruiksmogelijkheden dan andere tools. Met de meeste checksums tools kunnen niet alleen MD5-checksums worden gemaakt en gecontroleerd, maar ook andere types checksums.
Een uitgebreider overzicht van voorbeelden van checksum-tools vind je op Wikipedia.
Aan de slag met enkele checksum-tools
Ter illustratie demonstreren we hier drie mogelijkheden om MD5-checksums te creëren en te controleren. Met het oog op gebruiksvriendelijkheid hebben we gekozen voor checksum-tools met een grafische gebruikersinterface. We hebben zelf de checksums-tools gebruikt op een Apple-computer, maar ze draaien ook op andere besturingsprogramma’s dan macOS. Om de verschillende checksum-tools te installeren is het aangewezen om de installatiehandleidingen te raadplegen.
Auteurs : Rony Vissers (meemoo), en collaboration avec Nastasia Vanderperren (meemoo) et Henk Vanstappen