Liborius-Forschungsprojekt-KI

Durch den Einsatz Künstlicher Intelligenz sollen Handschriften effizient ausgelesen und verarbeitet werden, um bislang unbekannte oder noch nicht erschlossene Handschriften systematisch zu identifizieren und zugänglich zu machen.

Die digitale Erschließung historischer Handschriften stellt einen bedeutenden Schritt in der Bewahrung und wissenschaftlichen Nutzung unseres kulturellen Erbes dar. Mithilfe moderner Technologien der Künstlichen Intelligenz (KI) lassen sich handschriftliche Dokumente nicht nur automatisiert auslesen, sondern auch inhaltlich analysieren und klassifizieren. Ein zentrales Ziel dabei ist es, bislang unbeachtete oder unbekannte Textbestände gezielt auf relevante Inhalte hin zu untersuchen und so neue wissenschaftliche Erkenntnisse zu ermöglichen.

Der technische Kern dieses Vorhabens ist der Einsatz von Verfahren zur automatisierten Handschriftenerkennung (Handwritten Text Recognition, HTR), die auf bereits digitalisierten Handschriften angewendet werden. Ergänzt wird dieser Ansatz durch den Einsatz von Natural Language Processing (NLP), um semantische Zusammenhänge innerhalb der Texte zu analysieren.

Die Verarbeitung beginnt mit der Vorverarbeitung der digitalen Handschriften, bei der etwa Kontraste optimiert, Zeilen segmentiert und Störungen im Bildmaterial entfernt werden. Anschließend erfolgt die Texterkennung durch ein trainiertes HTR-Modell, das die handschriftlichen Zeichen in maschinenlesbaren Text umwandelt. Dabei können durch den Einsatz großer annotierter Trainingsdatensätze auch schwierige oder idiosynkratische Schreibweisen erkannt und korrekt interpretiert werden.

Im nächsten Schritt wird der erkannte Text mithilfe von NLP-Technologien auf bestimmte Inhalte hin analysiert. Dazu können beispielsweise Named-Entity-Recognition-Verfahren verwendet werden, um Personen-, Orts- oder Institutionsnamen zu extrahieren. Ebenso lassen sich thematische Schwerpunkte oder bestimmte Sachverhalte identifizieren, etwa durch das Erkennen von Schlüsselbegriffen oder typischen Formulierungen.

Auf diese Weise ist es möglich, große Mengen an Handschriften automatisiert zu durchsuchen und gezielt solche Dokumente zu identifizieren, die bislang unbeachtet geblieben sind, jedoch für bestimmte Forschungsfragen von hoher Relevanz sein könnten. Darüber hinaus erlaubt die strukturierte Analyse eine systematische Kategorisierung der Textbestände, was langfristig zu einer verbesserten Zugänglichkeit und besseren Auffindbarkeit historischer Quellen führt.

Die Kombination aus HTR, NLP und inhaltlicher Klassifikation eröffnet somit neue Perspektiven. Insbesondere in Projekten, die auf eine flächendeckende Erfassung großer handschriftlicher Korpora abzielen, erweist sich der KI-gestützte Ansatz als unverzichtbares Werkzeug, um Effizienz, Genauigkeit und Tiefenschärfe der Analyse maßgeblich zu steigern.