3. Die Arbeitsschritte für die Buch-Digitalisierung#
Von den Roh-Bildern bis zur Bereitstellung der fertig bearbeiteten Bücher in der digitalen Staatsbibliothek des Ewigen Bundes:
3.1. Die Ausgangslage:#
3.1.1. Roh-Daten#
Die Rohdaten, d.h. die abfotografierten (gescannten) Seiten eines Buches werden im Weltnetz gesucht und im Erfolgsfall heruntergeladen. Es handelt sich bei den einzelnen Seiten immer um Bilder in den Bild-Formaten x.jpg, x.png, x.tif, gelegentlich x.jp1.
Die erhaltenen Rohdaten sind zunächst von sehr unterschiedlicher Qualität. Zum einen hängt diese sehr stark von der Quelle ab, das heißt vom Zustand des gedruckten Buches. Vor allem ältere Ausgaben (grober Zeitraum vor ca. 1850, aber auch spätere) sind oft auf einem recht dünnen, fast transparenten Papier gedruckt. D.h. daß sehr häufig neben den Texten auf der gerade sichtbaren Seite auch die Inhalt von der Rückseite mehr oder weniger schwach durchscheinen.
Die Qualität der Buch-Bindung ist ebenso oft nicht optimal. Manche Seiteninhalte reichen bis an den Falz in der Mitte heran und sind deshalb recht schwer und unvollständig abbildbar. Dies trifft z.B. auf Tabellen zu, die auf zwei Seiten verteilt sind (sehr oft in Gesetzbüchern).
Andererseits ist auch die Abbildungs-Technik und die mehr oder weniger gute oder weniger gute Aufnahme der Seiten sehr unterschiedlich und zeigt sich in teilweise gravierenden Problemen. Manchmal fehlen Seiten, oder es sind Seiten doppelt vorhanden. Oder die Seiten sind schräg oder sogar einseitig verzerrt aufgenommen. Manchmal sind die ausgeführten Arbeiten sehr nachlässig und oberflächlich ausgeführt.
3.2. Die Technik:#
3.2.1. Datenerfassung#
Es erfolgt zunächst in einer Weltnetz-Anwendung namens GOOBI eine Erfassung relevanter einschlägiger Daten in einer Datenbank. Das sind z.B. der Buchtitel, der Autor, das Ausgabejahr, der Verlag, in dem das Buch erschienen ist, eine Einordnung in bestimmte Kategorien, und einige technische Daten.
3.2.2. Grafische Bearbeitung#
Nach der Erfassung in der Datenbank folgt die erste wirkliche digitale Bearbeitung der Seiten. Sie werden grafisch mit einem Spezial-Grafik-Programm (ScanTailor) optisch aufbereitet, soweit das die Ausgangslage zuläßt.
Neben der Seitenkontrolle (Vollständigkeit, Reihenfolge, doppelte) und deren Bereinigung erfolgt eine Verbesserung der Lesbarkeit und Entfernung (soweit möglich) von störenden Effekten, z.B. Flecken, Durchdrückungen von der Rückseite (schwer bis nahezu unmöglich), Stempeln von Büchereien oder von Abbildungs-Diensten (sehr oft von „Google“).
Schräg liegende Seiteninhalte werden so weit wie möglich senkrecht aufgerichtet. Einseitige Verzerrungen können versuchsweise entzerrt werden, was aber mit dem Programm ScanTailor nicht immer einwandfrei funktioniert.
Nicht möglich sind bei dieser grafischen Bearbeitung Hinzufügungen, z.B. um schlecht lesbare Buchstaben, Zeichen oder Wörter zu ersetzen. Das gelingt in einem späteren Arbeitsschritt.
3.2.3. Texterkennung#
Nach dem Abschluß der grafischen (optischen) Verbesserung sind die Inhalte der Seiten jedoch immer noch Bilder, die zwar am Bildschirm gelesen werden können, die aber nicht nach Textinhalten durchsucht werden können. Auch Kopien von Teilinhalten zur Weiterverarbeitung für Studienvorhaben sind nicht möglich.
Daher erfolgt in einem weiteren Schritt eine automatisierte „Auslesung“ der Textinhalte, die sogenannte Texterkennung.
3.2.4. Export#
Nach dieser ersten Arbeitsfolge wird das Buch dann erstmals in die Bibliothek „exportiert“, also in den Katalog und in das „Bücherregal“ eingestellt. Damit ist es für Interessierte und Nutzer bereits aufzufinden und für z.B. Recherchen nutzbar.
3.2.5. Strukturierung#
Im nächsten Schritt wird die Strukturierung vorgenommen. D.h. daß das Inhaltsverzeichnis in eine digitale Form gebracht wird. Damit können in der Bibliothek gezielt einzelne Kapitel und Inhalte direkt angesprungen werden. Mit dem neuen technischen Arbeitsstand wird das Buch wiederum exportiert.
3.2.6. Text-Korrektur#
Jetzt geht es gedanklich erst einmal zurück zur Texterkennung. Bei Texten, die in normaler heute gewohnter Druckschrift geschrieben sind, reicht das automatische Verfahren weitgehend aus.
Fast alle der für die Staatsbibliothek wichtigen und interessanten Bücher (Jahrgang 1918 und früher) sind aber in Frakturschrift gedruckt. Damit hat die automatische Erkennung Probleme, vor allem dann, wenn teilweise optische Fehler im Druck in der grafischen Bearbeitung nicht ohne Probleme bereinigt werden können (z.B. große die Buchstaben überdeckende Flecken u.ä.). Dann werden oft Fehl-Texte erzeugt.
In der Abteilung Korrektorat werden die Texte daher auf solche Fehler untersucht und soweit wie möglich manuell berichtigt.
3.2.7. Fertig#
Die digitale Behandlung ist nun abgeschlossen, und das Werk wird im jetzt fertigen technischen Zustand letztmalig exportiert.