Bewertung: 5 / 5

 
Thorsten H Willert  Speichern Titel

Das richtige Format zum Speichern von Scans

Wie an den im Beitrag Scannen gezeigten Beispielen, sollte man auf das Speichern als SW-Grafik möglichst verzichten.
Was bei Texten, mit normaler Schriftgröße und entsprechender Schriftart, noch halbwegs funktioniert, ist bei Tabellen und Grafik meist völlig unbrauchbar.
Auch handschriftliche Notitzen, die mit einem zu hellen Stift angefertigt wurden, gehen verloren.

Einem DMS wird es bei SW-Grafiken zudem erheblich erschwert, die Dokumente nach Texten zu durchsuchen, da die Texterkennung (OCR) oft wenig erkennen kann oder zu viele Fehler produziert.

Hier muss folgedessen ein Kompromiss zwischen Dateigröße und Qualität gefunden werden.

Die Möglichkeiten dafür möchte ich im Folgenden aufzeigen …

Die wichtigsten Punkte beim Speichern sind:
  1. Der benötigte Speicherplatz, bei einer Vielzahl an Dokumenten.
  2. Es dürfen keine Informationen der Originals verloren gehen und ein OCR-System sollte jeden Text erkennen können.
    Evtl. sind Graustufen-Varianten ausreichend, wenn die Farbe keine zusätzliche Information bietet.
  3. Die Verarbeitung der Daten darf nicht zu lange dauern (vom Scannen bis zum Speichern)
Punkt zwei muß Priorität haben, wenn eine gesetzliche Aufbewahrungspflicht besteht.
Denn zu welchem Zweck speichert man eingescannte Dokumente, wenn das Ergebnis nicht mehr lesbar ist - und damit den (gesetzlichen) Anforderungen und dem Sinn widerspricht?
Die Qualität hat immer Priorät, wenn es sich z. B. um Dokumente wie Zeugnisse oder Urkunden handelt, hier muß der Speicherbedarf zweitrangig sein.

Um die Dateigrößen besser einschätzen zu können, wurden alle Bilder in den nachfolgenden Tabellen als PNG gespeichert.
Größenvergleich bei Farbbildern
24 Bit RGB 256 Farben gedithert 16 Farben gedithert
Thorsten H Willert  Scannen Beispiel 1 300f
765 kB
Thorsten H Willert  Scannen Beispiel 1 300 256
337 kB
Thorsten H Willert  Scannen Beispiel 1 300 16fd
264 kB
Thorsten H Willert  Scannen Beispiel 2 300f
480 kB
Thorsten H Willert  Scannen Beispiel 2 300 256
298 kB
Thorsten H Willert  Scannen Beispiel 2 300 16fd
202 kB
Größenvergleich bei SW-Bildern
Graustufen und 16 Farben gedithert SW gedithert SW (Schwellwert 128)
Thorsten H Willert  Scannen Beispiel 1 300 16d
282 kB
Thorsten H Willert  Scannen Beispiel 1 300swd
128 kB
Thorsten H Willert  Scannen Beispiel 1 300sw
77 kB
Thorsten H Willert  Scannen Beispiel 2 300 16d
229 kB
Thorsten H Willert  Scannen Beispiel 2 300swd
133 kB
Thorsten H Willert  Scannen Beispiel 2 300sw
36 kB
OCR mit ABBY-FineReader.
In dem SW-Bild fehlen durch die Umwandlung einige Texte.
Die farbig markierten Texte wurden nicht korrekt erkannt.
Farbdokument SW-Dokument
Thorsten H Willert   Dokumentenoptimierung Scannen OCR F Thorsten H Willert   Dokumentenoptimierung Scannen OCR SW
Wie man den Tabellen entnehmen kann, erhält man mit SW-Bildern (Schwellwert) die kleinste Dateigröße, allerdings ist dies mit einem erheblichen Informationsverlust verbunden:
  • Tabellen werden nicht mehr richtig dargestellt.
  • Grafiken sind meist völlig unbrauchbar.
  • Unter einer bestimmten Helligkeit gehen sämtliche Informationen verloren!
  • Bei OCR Software sinkt die Erkennungsrate.


Das kleinste Format ist leider oft auch die üblichste Art, Dokumente zu Speichern; dass das Ergebniss meistens vollkommen unbrauchbar ist, scheint allerdings niemanden zu stören.

SW gedithert läßt sich auch wieder halbwegs rekonstruieren
SW gedithert Mit gausschem Weichzeichner bearbeitet (Radius: 1 px)
Thorsten H Willert  Scannen Beispiel 1 300swd
Thorsten H Willert  Scannen Beispiel 1 300swg
Thorsten H Willert  Scannen Beispiel 2 300swd
Thorsten H Willert  Scannen Beispiel 2 300swg

Zusammenfassung

Das optimale Speicherformat hängt immer noch von den Anforderungen an das Dokument ab.
  • Welche Informationen sind am wichtigsten und ist Farbe nötig?
  • Sind Fotos vorhanden und relevant?
  • Wie wichtig ist der Speicherplatz?
  • Graustufen oder farbig gedithert,
  • oder reicht eine SW-Grafik?
Die Möglichkeiten sind vielfältig
Zuhause dürfte der Speicherplatz Aufgrund der Anzahl an Dokumenten eher zweitrangig sein, wobei es in Großkonzernen ganz andere Dimensionen sind, wenn eine Datei nur doppelt so groß ist.

Alle relevanten Informationen eines Dokuments müssen auch nach dem Speichern noch vorhanden sein.

Auswahlhilfe für Bitmap-Formate

Mehr zum Thema

Software

Begriffserklärung

Downloads

pdf.png Dokumentenoptimierung Beispielvorlage 2.1  Beliebt    
Ein PDF-Beispiel mit verschiedenen Vektorgrafiken, Schriftarten, Tabellen und simulierter Bleistift / Kugelschreiber Handschrift.    Download
 07.02.2023  461.89 KB      624