Bild mit Scans in unterschiedlichen Farbtiefen

Das richtige Format zum Speichern von Scans

Wie an den im Beitrag Scannen gezeigten Beispielen, sollte man auf das Speichern als SW-Grafik möglichst verzichten.
Was bei Texten, mit normaler Schriftgröße und entsprechender Schriftart, noch halbwegs funktioniert, ist bei Tabellen und Grafik meist völlig unbrauchbar.
Auch handschriftliche Notitzen, die mit einem zu hellen Stift angefertigt wurden, gehen verloren.

Einem DMS wird es bei SW-Grafiken zudem erheblich erschwert, die Dokumente nach Texten zu durchsuchen, da die Texterkennung (OCR) oft wenig erkennen kann oder zu viele Fehler produziert.

Hier muss folgedessen ein Kompromiss zwischen Dateigröße und Qualität gefunden werden.

Die Möglichkeiten dafür möchte ich im Folgenden aufzeigen …

Die wichtigsten Punkte beim Speichern sind:
  1. Der benötigte Speicherplatz, bei einer Vielzahl an Dokumenten.
  2. Es dürfen keine Informationen der Originals verloren gehen und ein OCR-System sollte jeden Text erkennen können.
    Evtl. sind Graustufen-Varianten ausreichend, wenn die Farbe keine zusätzliche Information bietet.
  3. Die Verarbeitung der Daten darf nicht zu lange dauern (vom Scannen bis zum Speichern)
Punkt zwei muß Priorität haben, wenn eine gesetzliche Aufbewahrungspflicht besteht.
Denn zu welchem Zweck speichert man eingescannte Dokumente, wenn das Ergebnis nicht mehr lesbar ist – und damit den (gesetzlichen) Anforderungen und dem Sinn widerspricht?
Die Qualität hat immer Priorät, wenn es sich z. B. um Dokumente wie Zeugnisse oder Urkunden handelt, hier muß der Speicherbedarf zweitrangig sein.

Um die Dateigrößen besser einschätzen zu können, wurden alle Bilder in den nachfolgenden Tabellen als PNG gespeichert.
Größenvergleich bei Farbbildern
24 Bit RGB 256 Farben gedithert 16 Farben gedithert
760 kB
337 kB
264 kB
478 kB
298 kB
202 kB
Größenvergleich bei SW-Bildern
Graustufen und 16 Farben gedithert SW gedithert SW (Schwellwert 128)
282 kB
128 kB
77 kB
229 kB
133 kB
36 kB
OCR mit ABBY-FineReader.
In dem SW-Bild fehlen durch die Umwandlung einige Texte.
Die farbig markierten Texte wurden nicht korrekt erkannt.
Farbdokument SW-Dokument
Wie man den Tabellen entnehmen kann, erhält man mit SW-Bildern (Schwellwert) die kleinste Dateigröße, allerdings ist dies mit einem erheblichen Informationsverlust verbunden:
  • Tabellen werden nicht mehr richtig dargestellt.
  • Grafiken sind meist völlig unbrauchbar.
  • Unter einer bestimmten Helligkeit gehen sämtliche Informationen verloren!
  • Bei OCR Software sinkt die Erkennungsrate.


Das kleinste Format ist leider oft auch die üblichste Art, Dokumente zu Speichern; dass das Ergebniss meistens vollkommen unbrauchbar ist, scheint allerdings niemanden zu stören.

SW gedithert läßt sich auch wieder halbwegs rekonstruieren
SW gedithert Mit gausschem Weichzeichner bearbeitet (Radius: 1 px)

Zusammenfassung

Das optimale Speicherformat hängt immer noch von den Anforderungen an das Dokument ab.
  • Welche Informationen sind am wichtigsten und ist Farbe nötig?
  • Sind Fotos vorhanden und relevant?
  • Wie wichtig ist der Speicherplatz?
  • Graustufen oder farbig gedithert,
  • oder reicht eine SW-Grafik?
Die Möglichkeiten sind vielfältig
Zuhause dürfte der Speicherplatz Aufgrund der Anzahl an Dokumenten eher zweitrangig sein, wobei es in Großkonzernen ganz andere Dimensionen sind, wenn eine Datei nur doppelt so groß ist.

Alle relevanten Informationen eines Dokuments müssen auch nach dem Speichern noch vorhanden sein.

Auswahlhilfe für Bitmap-Formate

Mehr zum Thema

Software

Begriffserklärung

Downloads

pdf Dokumentenoptimierung Beispielvorlage  2.1  Beliebt    
Ein PDF-Beispiel mit verschiedenen Vektorgrafiken, Schriftarten, Tabellen und simulierter Bleistift / Kugelschreiber Handschrift.    Download
 461.89 KB      784