8. Optional: OCR lokal#
Die Texterkennung erfolgt auf dem Server der Staatsbibliothek. Es besteht die Möglichkeit, die Texterkennung lokal durchzuführen und die Daten anschließend in die Staatsbibliothek hochzuladen. Diese Option sollte jedoch nur in Ausnahmefällen genutzt werden.
8.1. Installation von Tesseract.#
Installiere Tesseract OCR über das Paketverwaltungssystem deines Linux-Distributions. Für Debian-basierte Systeme wie Ubuntu kannst du den folgenden Befehl verwenden:
sudo apt install tesseract-ocr
8.1.1. Sprachdaten hinzufügen.#
8.1.1.1. Speicherort finden.#
Finde heraus, wo Tesseract seine Sprachdaten speichert. Der Standardspeicherort variiert je nach System, ist aber häufig:
/usr/share/tesseract-ocr/4.00/tessdata/ (für Tesseract 4.00)
8.1.1.2. Kopieren der Sprachdaten#
Kopiere die heruntergeladenen .traineddata-Dateien in das entsprechende Verzeichnis.
8.1.1.3. Überprüfung der Installation.#
Nachdem die Sprachdaten-Datei kopiert wurde, überprüfe, ob Tesseract sie erkennen kann. Du kannst dazu den folgenden Befehl verwenden, der alle verfügbaren Sprachen auflistet:
tesseract --list-langs
8.2. Nutzung von Tesseract.#
Um Tesseract zu verwenden, musst du ein Bild oder eine PDF haben, das Text enthält. Angenommen, du hast ein Bild namens image.png und möchtest den darin enthaltenen Text extrahieren.
Es werden alle drei heruntergeladene Sprachmodelle gleichzeitig genutzt um das bestmögliche Ergebnis zu erreichen.
8.2.1. Export für die Staatsbibliothek (XML)#
Installiere PDFTK.
sudo apt install pdftk
Nutze das Skript ocr.sh. Herunterladen Kopere es in das Verzeichnis, in dem die tif-Dateien liegen und mach es ausführbar:
chmod +x ocr.sh
Starte das Skript:
./ocr.sh
8.2.2. Export in einer txt-Datei.#
Diese Funktion ist für die Staatsbibliothek nicht geeignet. Sie kann jedoch nützlich sein, wenn man kurzfristig ein Buch oder einzelne Seiten benötigt.
tesseract Pfad/buch.pdf output -l deu_frak+Fraktur_1+Fraktur_2
Erklärung des Befehls.
-l deu_frak+Fraktur_1+Fraktur_2: Dies gibt an, dass Tesseract die Sprachmodelle deu_frak, Fraktur_1 und Fraktur_2 verwenden soll. Die Modelle werden durch das +-Zeichen getrennt, sodass Tesseract alle angegebenen Modelle berücksichtigt.
8.3. Grafische Oberfläche - gImageReader#
gImageReader ist eine benutzerfreundliche grafische Oberfläche für Tesseract OCR, die das Scannen und Erkennen von Texten aus Bildern und PDFs erleichtert.
8.3.1. Installation.#
8.3.1.1. PPA-Repository hinzufügen.#
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt update
8.3.1.2. gImageReader installieren.#
sudo apt install gimagereader
8.3.2. Nutzung von gImageReader.#
8.3.2.1. Starten von gImageReader.#
Öffne gImageReader über das Anwendungsmenü deiner Desktop-Umgebung oder durch Eingabe von gimagereader-gtk (für die GTK-Version) oder gimagereader-qt (für die Qt-Version) im Terminal.
8.3.2.2. Ein Bild oder PDF öffnen.#
Klicke auf „Datei“ in der Menüleiste.
Wähle „Bilder/PDFs öffnen“ aus.
Navigiere zu dem Verzeichnis, in dem sich die Datei befindet, die du bearbeiten möchtest.
Wähle die Datei aus und klicke auf „Öffnen“.
8.3.2.3. Auswahl der Sprache und OCR-Engine.#
Stelle sicher, dass Tesseract als OCR-Engine ausgewählt ist.
Wähle die Sprache, die dem Text in deinem Bild oder PDF entspricht. Dies kannst du im Dropdown-Menü für die OCR-Sprache einstellen.
8.3.2.4. OCR-Prozess starten.#
Wähle den Bereich des Bildes oder PDFs aus, den du scannen möchtest. Dies kannst du durch Klicken und Ziehen mit der Maus erreichen.
Klicke auf den „OCR“-Button, um den Texterkennungsprozess zu starten.
8.3.2.5. Überprüfung und Export des erkannten Textes.#
Nach Abschluss des OCR-Prozesses wird der erkannte Text im unteren Bereich des gImageReader-Fensters angezeigt.
Überprüfe den Text und nimm bei Bedarf Korrekturen vor.
Um den Text zu exportieren, klicke auf „Datei“ und wähle „Text exportieren“ aus. Du kannst den Text als .txt, .pdf oder in anderen Formaten speichern.
Fertig.