Handwritten Text Recognition
Der Transkriptionsprozess wird in vier Phasen unterteilt:
1. Upload/Preprocessing (vollautomatisiert):
Dateien können in diversen Formaten hochgeladen und im Preprocessing automatisch für den Erkennungsvorgang vorbereitet werden.
2. Layoutanalyse (vollautomatisiert/teilautomatisiert/manuell):
Zentral für die Qualität der späteren Transkription ist eine möglichst exakte Auszeichnung der einzelnen Seitenelemente (Textfelder, Zeilen, übergroße Initialen, aber auch Miniaturen, Bibliotheksstempel, Glossierungen etc.). Hierbei kommt es darauf an sicherzustellen, dass später nur die Bereiche einer Seite vom HTR erfasst werden, die auch umgeschrieben werden sollen. Gleichzeitig müssen die jeweiligen Zeilen vollständig erkannt, gegeneinander abgegrenzt und in die richtige Readingorder gebracht werden. Nur so kann später ein kohärenter Text umgeschrieben werden.
Eine möglichst genaue Layoutanalyse stellt daher (neben dem HTR-Modell) die Grundvoraussetzung für qualitativ gute Transkriptionen dar. OCR4all stellt hierfür eine vollautomatische Lösung zur Verfügung (Kraken – momentan in der Testphase). Für komplizierte Layouts kann ein teilautomatisiertes Vorgehen Anwendung finden, bei dem zunächst die jeweiligen Regionen einer Seite händisch ausgezeichnet wird und die Zeilen automatisch erkannt werden. Der Arbeitsaufwand beträgt im Regelfall weniger als eine Minute pro Seite. Bei sehr komplexen Layoutvarianten ist auch eine vollständige (aber zeitaufwendige) manuelle Layoutanalyse möglich. Die drei Verfahren sind prinzipiell alle miteinander kombinierbar, es kann also bei Bedarf die vollautomatische Layoutanalyse händisch nachkorrigiert werden o. ä.
3. Recognition (vollautomatisiert – Grundmodell/werkspezifisches Modell):
Die Transkription der vorbearbeiteten Handschrift kann in OCR4all über eines der Grundmodelle erfolgen. Wenn die Transkriptionsgenauigkeit bereits ausreicht, kann die Texterkennung vollautomatisch durchgeführt werden.
Wenn die Genauigkeit für den jeweiligen ANwendungszweck nicht ausreicht, kann ein wekspezifisches Modell erstellt werden, also ein Transkriptionsmodell, das an die Besonderheiten der zu transkribieren Handschrift angepasst wird.
Hierfür wird in einem iterativen Verfahren Ground Truth (GT) erstellt: Das HTR erfasst automatisch eine kleinere Datenmenge (z. B. eine Seite der Handschrift) und die automatische Transkription wird händisch korrigiert. Die so erstellte GT wird auf das Grundmodell trainiert und mit diesem werkspezifischen Modell eine andere Seite transkribiert. Reicht der Genauigkeitsgrad nun aus, kann dieses Modell für die ganze Handschrift verwendet werden. Ist der Genauigkeitsgrad noch immer zu gering, kann der Vorgang so lange mit weiteren Seiten wiederholt werden, bis das gewünschte Ergebnis vorliegt.
Im Regelfall kann bereits mit dem Grundmodell ein hoher Genauigkeitgrad erreicht werden. Gleichzeitig reichen bereits geringe Mengen GT für ein werkspezifisches Modell aus, um signifikante Verbesserungen zu erreichen.
4. Nachbearbeitung (teilautomatisiert – in der Testphase):
Es ist möglich, in OCR4all sog. Konfidenzwerte abzubilden. Diese Werte zeigen den Wahrscheinlichkeitsgrad an, mit dem das HTR-Modell ein Zeichen bzw. eine Zeichenkette erkannt hat. Bei geringen Konfidenzwerten liegt dementsprechend eine größere Fehlerwahrscheinlichkeit vor und umgekehrt. Anhand dieser Werte kann also eine händische Nachkorrektur erfolgen, die sich auf die Transkriptionsstellen konzentrieren kann, an denen mit größter Wahrscheinlichkeit Fehler vorliegen. Hierdurch soll mit möglichst kleinem Zeitaufwand eine weitere Verbesserung der Transkriptionsgenauigkeit erreicht werden. Dieses Verfahren befindet sich aktuell noch im Testmodus.
Wenn eine bisher im Grundmodell nicht vorhandene Handschrift erfasst werden soll, kommt das Erstellen eines werkspezifischen Modells hinzu.