Aktuelles
Named Entity Recognition in der historisch-biografischen Forschung
[3.4.2025]Workshop
Exploration und Evaluation verschiedener NER-Verfahren auf Interviewtranskripten aus der Oral-History, Kooperation mit dem Forschungsbereich CATALPA
Am 15. Mai wird ein hybrider hands-on Workshop der Forschungsgruppe digital humanities in Kooperation mit dem Forschungsbereich CATALPA, vertreten durch Torsten Zesch (Professur für Computerlinguistik), stattfinden. Im Sinne eines bewährten Transfers zwischen Forschung und Lehre können Studierende des BA KuWi-Wahlmoduls Digital Humanities den Workshop als Lehrveranstaltung anrechnen lassen.
Named Entity Recognition (NER) ist ein Verfahren zur automatisierten Erkennung von feststehenden sprachlichen Entitäten wie Personennamen, Orten, Organisationen oder Daten in Texten. Eine NER kann helfen, unstrukturierte Daten in kurzer Zeit zu erschließen und Inhalte zu erfassen. Im Rahmen des Forschungsprojekts Oral-History.Digital sind seit 2020 über 4.500 Interviews aus der Oral History im Portal mit Metadaten verzeichnet, davon sind bereits über 2.400 Interviews mit Mediendateien angelegt (Audio oder Video) und über 2.100 mit Volltexttranskripten versehen. In der Regel handelt es sich bei den Interviewtranskripten um unstrukturierte Daten.
In der deutschsprachigen Oral History hat sich das narrativ-biographische Interview in der Tradition Fritz Schützes durchgesetzt. Dieses zeichnet sich durch drei Phasen aus: einer offenen Stegreiferzählung, einer zweiten Phase, die dem konkreten Nachfragen zur offenen Erzählung dient, und einer letzten Phase, in der über das eigentliche Forschungsthema diskutiert wird. Alleine wegen der freien Erzählung am Anfang des Interviews, die von mehreren Minuten bis zu mehreren Stunden dauern kann, handelt es sich um äußerst komplexe Textquellen. Diese in der Tiefe zu erschließen ist eine ebenso wichtige wie herausfordernde Aufgabe, für die optimalerweise mehrere digitale Methoden ineinandergreifen sollten. In einem 2021 durchgeführten hands-on-Workshop wurde Topic Modeling als inhaltserschließendes Verfahren getestet und mittlerweile erfolgreich in die OH.D-Plattform integriert, um Themenverläufe in Interviews zu erkennen und automatische Inhaltsverzeichnisse zu generieren. NER geht noch einen anderen Weg, in dem nicht über Worthäufigkeiten Themen abstrahiert werden, sondern indem konkret feststehende Begriffe verortet, indiziert und im Optimalfall mit Normdatenbanken verknüpft werden (wie z. B. die Namen historischer Persönlichkeiten, Orte, Unternehmen, Berufe oder politische Organisationen).
Eine weitere große Herausforderung ist die Anonymisierung von Transkripten, um den Datenschutz der teilweise hochsensiblen Interviews zu verbessern. Im mit OH.D verwandten Projekt Open.Oral-History ist eben dies Thema. Ein Arbeitspaket widmet sich der Aufgabe, eine teilautomatische Anonymisierung technisch umzusetzen. Dafür kann eine NER eingesetzt werden, um anonymisierungswürdige Entitäten zu lokalisieren. Auch das gilt es, im Workshop zu prüfen.
Ähnlich wie beim Topic Modeling, handelt es sich bei NER nicht um eine Methode, sondern eher um eine Idee, die mit verschiedenen Methoden umgesetzt werden kann. Im Workshop werden wir aktiv auf vorbereiteten Programmierkonsolen (Jupyter Notebooks bzw. Google Colabs) verschiedene NER-Verfahren testen und evaluieren. Dazu stehen eine Handvoll Interviewtranskripte zur Verfügung, in denen Entitäten bereits händisch eingetragen wurden (Goldstandard/Ground Truth), um die Treffgenauigkeit der Verfahren zu überprüfen und vergleichen zu können.
Eine Auswahl an Entitäten, die es in den Texten zu lokalisieren gilt, wird von den Durchführenden in einem ersten Slot vor- und zur Diskussion gestellt. Im zweiten Slot werden dann hands-on die Verfahren getestet. Im dritten Slot werden die Ergebnisse hinsichtlich einer flächendeckenden Anwendung auf tausende Transkripte und eine Implementierung in die Plattform Oral-History.Digital diskutiert.
Veranstalter: Torsten Zesch, Helmut Hofbauer, Dennis Möbus