Een digitaliseringsopdracht uitbesteden/en: verschil tussen versies

Uit Tracks
Naar navigatie springen Naar zoeken springen
Nieuwe pagina aangemaakt met 'Agree whether post-processing will take place, and how it needs to happen (e.g. straightening, cropping, sharpening). You need to be explicit if you want to make su...'
Nieuwe pagina aangemaakt met '* Before: prepare your content, look for a supplier, make agreements, and perform initial tests; * During: follow up queries any from the supplier and carry out int...'
Regel 55: Regel 55:
If it concerns text documents, then it’s a good idea to OCR them straight away. OCR stands for Optical Character Recognition and converts the text in your document into machine-readable text, so that you can also search for words in your reproductions. It is often possible at no great expense. Agree how the OCR data will be delivered. A text file per scan is the minimum requirement and should always be requested, but you can for example additionally have the OCR text embedded in a PDF for optimum searchability.
If it concerns text documents, then it’s a good idea to OCR them straight away. OCR stands for Optical Character Recognition and converts the text in your document into machine-readable text, so that you can also search for words in your reproductions. It is often possible at no great expense. Agree how the OCR data will be delivered. A text file per scan is the minimum requirement and should always be requested, but you can for example additionally have the OCR text embedded in a PDF for optimum searchability.


<div lang="nl" dir="ltr" class="mw-content-ltr">
=== The deliverable files ===
=== De aan te leveren bestanden ===
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
Agree whether the supplier will deliver master, archive and/or reference files. (See the [[Kwaliteitsvol digitaliseren van tekst- en beeldmateriaal/en|High-quality text and image digitisation]] section for more information.) Agree which file formats will be used: uncompressed baseline TIFF v6 for master and archive files, JPEG for reference files if they contain image content, and PDF for reference files if they have text content.
Spreek goed af of de leverancier een masterbestand, archiveringsbestand en raadplegingsbestand moet leveren. (Zie voor meer info de tool [[Kwaliteitsvol digitaliseren van tekst- en beeldmateriaal]]) Spreek af welke bestandsformaten daarvoor zullen worden gebruikt. Uncompressed baseline TIFF v6 voor moederbestanden en archiveringsbestanden, JPEG voor raadplegingsbestanden als het beeldmateriaal betreft, PDF voor raadplegingsbestanden als het tekstmateriaal betreft.
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
Make sure the supplier also delivers the [[Checksums als middel om de integriteit van bestanden te bewaken|checksums/en]] for each file, so you can check that no errors have occurred e.g. when copying files. The easiest way to do this is to provide your supplier with a text document or spreadsheet of all files with their checksums.
Zorg ervoor dat de leverancier ook de [[Checksums als middel om de integriteit van bestanden te bewaken|checksums]] van ieder bestand aanlevert, zodat je kan controleren of er geen fouten zijn gebeurd bij bv. het doorkopiëren van de bestanden. Het eenvoudigst is dat de leverancier je een tekstdocument of spreadsheet bezorgt van alle bestanden met hun checksums.
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
[[Bestand:Checksumfile VAI.png|thumb|none|700px|An example text file with checksums per file. You can use these checksums to trace any errors in the copying process. It’s also useful for checking that your files have not been modified.]]
[[Bestand:Checksumfile VAI.png|thumb|none|700px|Een voorbeeld van een tekstbestand met checksums per file. Aan de hand van deze checksums kun je fouten in het doorkopiëren opsporen. Het is ook altijd interessant om nadien te controleren of er geen wijzigingen aan je bestanden zijn gebeurd.]]
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
=== The metadata ===
=== De metadata ===
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
Agree how the supplier needs to name the files and what the folder structure should be. Ideally, you will draw up a list of all the content that the supplier needs to digitise in a spreadsheet, where you can clearly indicate all the filenames in a separate column. You can find an example spreadsheet for magazine digitisation on the [https://www.vai.be/advies/digitalisering-architectuurtijdschriften-rapport-en-evaluatie#h3 VAi website].
Spreek af hoe de leverancier de bestanden moet benoemen en wat de mappenstructuur moet zijn. Idealiter maak je in een spreadsheetsoftware al een lijst op van al het materiaal dat de leverancier moet digitaliseren, waarbij je in een andere kolom duidelijk aangeeft wat de bestandsnamen zijn. Een voorbeeld van een dergelijk spreadsheet voor tijdschriftdigitalisering vind je op de [https://www.vai.be/advies/digitalisering-architectuurtijdschriften-rapport-en-evaluatie#h3 website van het VAi].
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
If you want the supplier to add any other metadata during the scanning process, then make clear agreements about how they will enter and deliver this, and how they will check the quality.
Wil je dat de leverancier ook andere metadata toevoegt tijdens het scanproces? Spreek dan goed af hoe hij deze invult en levert, en hoe hij de kwaliteit controleert.
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
You can also ask the supplier to embed certain technical and content-related metadata in the files. See the [[Ingebedde metadata bij foto's/en|Embedded metadata in photos]] section for more information.
Je kan de leverancier ook vragen om bepaalde technische en inhoudelijke metadata in te bedden in de bestanden. Zie voor meer info de tool [[Ingebedde metadata bij foto's]].
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
=== A test phase ===
=== Een testfase ===
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
It is recommended to arrange a test phase with the supplier, so you can observe the digitisation process in person on site. Make sure they digitise a number of items as a test to begin with. If you are not satisfied, you can then still make adjustments to create a ‘reference scan’ that you are happy with. This will set the bar for the quality of your subsequent digitisations.
Het is aan te raden dat je een testfase afspreekt met de leverancier, waarbij je ook zelf ter plekke kan gaan kijken naar het digitaliseringsproces. Zorg dat hij eerst een beperkt aantal stukken als proef digitaliseert. Ben je niet tevreden, dan kan je nog aanpassingen laten maken tot er een 'referentiescan' ontstaat, waarover je tevreden bent. Deze vormt dan de graadmeter voor de kwaliteit van de volgende digitaliseringen.
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
=== Ensure adequate time for checking ===
=== Voorzie controletijd ===
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
Ideally, you will check that the supplier does everything you ask. See below for more information about how you can tackle the quality control.
Idealiter controleer je of de leverancier wel alles doet zoals je het hem vraagt. Zie verder voor meer info over hoe je de kwaliteitscontrole kunt aanpakken.
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
Agree a period of time with your supplier for you to check the deliveries. The supplier will preferably also provide you with interim results over the internet, so you can check them straight away and intervene if anything goes wrong. Determine in advance with your supplier which methods and software you’ll be using to check the content.
Spreek met je leverancier een termijn af waarin je tijd hebt om het geleverde materiaal te controleren. Bij voorkeur levert de leverancier je via internet al tussentijdse resultaten zodat je meteen kan controleren en ingrijpen als er iets misloopt. Bepaal op voorhand met de leverancier welke methode en software je zult gebruiken om het materiaal te controleren.
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
== During the digitisation ==
== Tijdens het digitaliseren ==
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
Follow up queries from the supplier and ideally carry out interim quality controls while the digitisation process is still ongoing. These tips can help:
Tijdens het digitaliseren volg je vragen van de leverancier op en doe je idealiter tussentijdse kwaliteitscontroles. Deze tips kunnen je hiermee helpen:
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
* Spend adequate time determining the reference scan;
* Besteed genoeg tijd aan het bepalen van de referentiescan.
* The sooner a fault is noticed, the better. Ask your supplier to provide you with interim results, so you can respond to any errors straight away. Target scans, which test the correctness of the calibration, can for example be sent over the internet immediately after calibration and checking. Generated reference files can also be sent over the internet, so you can assess the visual quality straight away too;
* Hoe sneller een fout wordt opgemerkt, hoe beter. Vraag aan je leverancier om je tussentijdse resultaten te bezorgen, zodat je  meteen kan reageren bij een fout. Targetscans, waarmee de correctheid van de kalibratie wordt getest, kunnen bijvoorbeeld meteen na kalibratie en controle via het internet worden verstuurd. Ook gegenereerde raadplegingsbestanden kunnen meegestuurd worden over het internet, zodat je meteen ook de beeldende kwaliteit kan beoordelen.
* If you have made specific requests for post-processing after the digitisation (e.g. to add OCR and metadata), then add an intermediate stage to check the digitisation quality. Only give your authorisation to proceed with the further post-processing of the files once you are certain that the digitisation itself has been done properly. Otherwise you run the risk of the supplier spending time processing faulty files, which can lead to disputes later on.
* Als je naast het digitaliseren van het materiaal ook specifieke vragen hebt gesteld m.b.t. postprocessing (bv. OCR en metadata toevoegen), las dan een tussenstap in waarbij eerst de kwaliteit van de digitalisering wordt gecontroleerd. Pas wanneer je zeker bent dat de digitalisering zelf goed is gebeurd, geef je toelating om over te gaan tot verdere post-processing van de bestanden. Anders loop je het risico dat de leverancier tijd gaat steken in het verwerken van foute bestanden, wat kan leiden tot discussies achteraf.
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
== After the digitisation: quality control ==
== Na het digitaliseren: Kwaliteitscontrole ==
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
Outsourcing a digitisation assignment saves you a lot of time because you don’t have to create the reproductions yourself, but you do need to allocate lots of time for the quality control if you want to do it properly. Do not underestimate this; all kinds of things can go wrong. Generally speaking, you should check the content for:
Door een digitalisering uit te besteden win je veel tijd, omdat je zelf niet de reproducties hoeft te maken, maar als je het goed wil doen moet je wel veel tijd uittrekken voor de kwaliteitscontrole. Onderschat dit niet, er kan vanalles fout gaan. Grosso modo controleer je het materiaal op:
* completeness;
* de volledigheid
* image quality;
* de beeldkwaliteit
* correctness of file format;
* de correctheid van het bestandsformaat
* post-processing quality (e.g. OCR);
* de kwaliteit van de post-processing (bv. OCR)
* metadata quality.
* de kwaliteit van de metadata
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
=== Content completeness ===
=== De volledigheid van het materiaal ===
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
This shouldn’t take long if you have drawn up a good list of all the content in advance. Check that there are the same number of files per folder as there are in the listed items (pages, photos, etc).
Als je op voorhand een goede lijst hebt gemaakt van al het materiaal, is dit erg snel gebeurd. Controleer of er per folder evenveel bestanden zijn als er opgelijste items (pagina’s, foto’s enz.) zijn.
</div>


<div lang="nl" dir="ltr" class="mw-content-ltr">
<div lang="nl" dir="ltr" class="mw-content-ltr">

Versie van 20 apr 2021 10:16

Outsourcing a digitisation assignment means asking an external company to digitise your archive or collection for you.

The fact that specialists are taking care of it increases your chances of obtaining high-quality reproductions. Outsourcing your digitisation assignment is therefore certainly recommended if you have large amounts of valuable content, or if there are items that you simply can’t digitise yourself, maybe because they’re too big in terms of format or involve tricky formats such as video tapes.

But be careful: outsourcing a digitisation project isn’t as easy as simply calling a company and asking them to do it for you. There are lots of issues that need to be established in advance as much as possible before requesting a quote from suppliers, and then included in any agreements you make.

You need to assume three phases when outsourcing a digitisation assignment: before, during and after digitisation.

  • Before: prepare your content, look for a supplier, make agreements, and perform initial tests;
  • During: follow up queries any from the supplier and carry out interim checks;
  • After: check that all your content has been returned to you correctly, and carry out final quality control checks on the reproductions.


Foreword

Before going any further, please read through the general principles for high-quality digitisation, which we explain for you in the High-quality text and image digitisation section. The general requirements for good digitisation (sufficient storage space, descriptions, reproduction quality and file format quality) also apply here.

Before digitisation: agreements with the supplier

Practical agreements

Make sure there are clear agreements in place for the logistics, pick-up, delivery date, contact persons, digital file delivery method, etc.

Rights

Make an agreement with the supplier that they cannot claim any intellectual ownership or usage rights for the reproductions. If your collection contains privacy-sensitive content, ask for a confidentiality clause.

Logistics and storage conditions

Make sure your supplier clearly describes where the originals will be stored, and how they will be transported. It’s preferable to draw up a condition report for the collection, so that you can check afterwards that nothing has been damaged.

Conditions about completeness

Ask for guarantees that the supplier will scan everything properly. It’s best to describe and record your collection in as much detail as possible to be able to check this. (See the High-quality text and image digitisation section.) This ensures not only that you can check everything has been digitised properly, but also that the supplier has returned all the originals to you.

Example spreadsheet for digitising slides. Each slide is given a unique number (left column) and an indication of the number of slides per holder (fourth column), so you can check that all slides have been scanned and returned. The register also gives the supplier clear instructions about what filenames need to be given to the reproductions (third column).

Conditions about the reproduction quality and process

  • Make clear agreements about the resolutions, bit depths and colour profiles to be used for the digitisation.
  • Make sure the supplier clearly describes what recording equipment they are going to use.
  • The supplier should state that the equipment will be calibrated on a daily basis: at the start of the process, when restarting the equipment, and when changing settings.
  • Ask how the supplier is going to check the capturing and calibration quality, and that they will provide you with evidence of their control processes.

Image quality standards

Include in your specifications that the tenderer must satisfy internationally applicable standards such as Metamorfoze, FADGI or Digitisation guidelines for photographic materials. This obliges the supplier to comply with international standards and carry out the prescribed quality controls.

Post-processing

Agree whether post-processing will take place, and how it needs to happen (e.g. straightening, cropping, sharpening). You need to be explicit if you want to make sure a specific process definitely isn’t used.

If it concerns text documents, then it’s a good idea to OCR them straight away. OCR stands for Optical Character Recognition and converts the text in your document into machine-readable text, so that you can also search for words in your reproductions. It is often possible at no great expense. Agree how the OCR data will be delivered. A text file per scan is the minimum requirement and should always be requested, but you can for example additionally have the OCR text embedded in a PDF for optimum searchability.

The deliverable files

Agree whether the supplier will deliver master, archive and/or reference files. (See the High-quality text and image digitisation section for more information.) Agree which file formats will be used: uncompressed baseline TIFF v6 for master and archive files, JPEG for reference files if they contain image content, and PDF for reference files if they have text content.

Make sure the supplier also delivers the checksums/en for each file, so you can check that no errors have occurred e.g. when copying files. The easiest way to do this is to provide your supplier with a text document or spreadsheet of all files with their checksums.

An example text file with checksums per file. You can use these checksums to trace any errors in the copying process. It’s also useful for checking that your files have not been modified.

The metadata

Agree how the supplier needs to name the files and what the folder structure should be. Ideally, you will draw up a list of all the content that the supplier needs to digitise in a spreadsheet, where you can clearly indicate all the filenames in a separate column. You can find an example spreadsheet for magazine digitisation on the VAi website.

If you want the supplier to add any other metadata during the scanning process, then make clear agreements about how they will enter and deliver this, and how they will check the quality.

You can also ask the supplier to embed certain technical and content-related metadata in the files. See the Embedded metadata in photos section for more information.

A test phase

It is recommended to arrange a test phase with the supplier, so you can observe the digitisation process in person on site. Make sure they digitise a number of items as a test to begin with. If you are not satisfied, you can then still make adjustments to create a ‘reference scan’ that you are happy with. This will set the bar for the quality of your subsequent digitisations.

Ensure adequate time for checking

Ideally, you will check that the supplier does everything you ask. See below for more information about how you can tackle the quality control.

Agree a period of time with your supplier for you to check the deliveries. The supplier will preferably also provide you with interim results over the internet, so you can check them straight away and intervene if anything goes wrong. Determine in advance with your supplier which methods and software you’ll be using to check the content.

During the digitisation

Follow up queries from the supplier and ideally carry out interim quality controls while the digitisation process is still ongoing. These tips can help:

  • Spend adequate time determining the reference scan;
  • The sooner a fault is noticed, the better. Ask your supplier to provide you with interim results, so you can respond to any errors straight away. Target scans, which test the correctness of the calibration, can for example be sent over the internet immediately after calibration and checking. Generated reference files can also be sent over the internet, so you can assess the visual quality straight away too;
  • If you have made specific requests for post-processing after the digitisation (e.g. to add OCR and metadata), then add an intermediate stage to check the digitisation quality. Only give your authorisation to proceed with the further post-processing of the files once you are certain that the digitisation itself has been done properly. Otherwise you run the risk of the supplier spending time processing faulty files, which can lead to disputes later on.

After the digitisation: quality control

Outsourcing a digitisation assignment saves you a lot of time because you don’t have to create the reproductions yourself, but you do need to allocate lots of time for the quality control if you want to do it properly. Do not underestimate this; all kinds of things can go wrong. Generally speaking, you should check the content for:

  • completeness;
  • image quality;
  • correctness of file format;
  • post-processing quality (e.g. OCR);
  • metadata quality.

Content completeness

This shouldn’t take long if you have drawn up a good list of all the content in advance. Check that there are the same number of files per folder as there are in the listed items (pages, photos, etc).

Controleer ook of er geen fouten zijn geslopen in de bestanden door bv. kopieeracties over het web. Indien je met de leverancier een goed checksumbestand hebt afgesproken, kan dit automatisch. (Naar de tool over checksums)

Tot slot is het altijd een goed idee om te controleren of ook het originele materiaal in zijn volledigheid is teruggebracht.

De beeldkwaliteit

Probeer deze controle al zoveel mogelijk tijdens het digitaliseringsproces te doen. De enige vorm van herstel is immers opnieuw digitaliseren.

Hierboven bespraken we al dat het een goed idee is om je leverancier te vragen om een internationale norm voor digitaliseren te volgen (Metamorfoze, FADGI of Guidelines Digitalisation of photographic materials). Op die manier verbindt de leverancier zich er contractueel toe om bepaalde stappen te ondernemen die de kwaliteit van de digitalisering garanderen.

Maar het is niet zo dat omdat een leverancier zegt dat hij een norm zal respecteren, dat hij dat ook daadwerkelijk zal doen. De normen bieden je een kader waarin je zelf kan nameten of dit gebeurt of niet aan de hand van “targetscans” (zie voor meer info de desbetreffende norm).

Weet wel dat deze normen voer zijn voor specialisten en dat de controles specifieke software vereisen. Lukt dit je niet, kijk dan in ieder geval zelf altijd goed de beelden na. Zijn ze scherp genoeg? Zijn ze leesbaar? Tonen de beelden geen vreemde verkleuring of artefacten (bv. moiré)? Is het beeld bruikbaar voor publicaties in boeken en op het web?

Wens je ondersteuning om intensief te controleren of een reproductie correct volgens de normen is gemaakt, contacteer dan een TRACKS-partner.

De correctheid van het bestandsformaat

Probeer deze controle zoveel mogelijk tijdens het digitaliseringsproces te doen.

Concentreer je voor de kwaliteitscontroles vooral op de moederbestanden en archiveringsbestanden. De raadplegingsbestanden zijn minder kritiek. Nieuwe raadplegingsbestanden kunnen altijd nog worden gegenereerd op basis van de archiveringsbestanden.

Let op! Het is niet omdat een bestand de extensie “.tif” heeft, dat het ook gaat om een TIFF. Om te testen of je TIFF daadwerkelijk een TIFF is, kan je een tool als Droid gebruiken. Zie de tool [Bestanden uit je digitaal archief identificeren met DROID].

Om te testen of je TIFF daadwerkelijk een Uncompressed Baseline TIFF v6.0 is (dus de meest duurzame soort TIFF) kan je de tool DPF-manager gebruiken. Naar onze ervaring komt het best nog wel vaak voor dat een TIFF niet overeenstemt met een gevraagde norm, dus doe zeker de test. Aarzel niet om een TRACKS-partner te contacteren voor hulp bij het controleren.

De kwaliteit van de post-processing (OCR)

OCR is zelden tot nooit volledig foutloos. De kwaliteit van de OCR is afhankelijk van de gebruikte software maar vooral ook van de aard van het bronmateriaal. Om de kwaliteit te controleren vraag je steeds de OCR-gegevens op in afzonderlijke tekstbestanden en niet enkel in PDF-bestanden. Je kunt dan steekproefsgewijs een aantal tekstbestanden met OCR-tekst openen en nagaan of de kwaliteit goed is.

Contacteer eventueel een TRACKS-partner voor meer informatie.

De kwaliteit van de metadata

Vraag je aan de leverancier om ook metadata aan de gedigitaliseerde bestanden toe te voegen (zoals titels), dan is er geen andere mogelijkheid om dit te controleren dan door het na te kijken, eventueel via steekproef. Ongeacht de wijze waarop de leverancier de metadata aanlevert, vraag je best ook een uitdraai van de metadata in een spreadsheet op. Dat vereenvoudigt de handmatige controle.

Een digitaal bestand heeft ook ingebedde, technische metadata. Indien je wil kan je ook hiervan de kwaliteit beoordelen. Zie hiervoor de tool (ingebedde metadata).

Meer lezen

Auteurs: dit artikel is oorspronkelijk gebaseerd op een tekst van Wim Lowet (Vlaams Architectuurinstituut), in samenwerking met Nastasia Vanderperren en Bart Magnus (meemoo).