Aktuelles

BERICHT: Named Entity Recognition in der historisch-biografischen Forschung

[30.5.2025]

Forschungsergebnisse
Exploration und Evaluation verschiedener NER-Verfahren auf Interviewtranskripten aus der Oral-History, Kooperation mit dem Forschungsbereich CATALPA


Am 15. Mai hat an der FernUni in Hagen ein hybrider Workshop zur Named Entity Recognition (NER) in der historisch-biographischen Forschung stattgefunden. Der Workshop war konzipiert als Kooperation zwischen dem Forschungsschwerpunkt digitale_kultur, vertreten durch Helmut Hofbauer, M. A., Dr. Dennis Möbus, Dr. Almut Leh und Prof. Uta Störl aus der Forschungsgruppe digital humanities, dem Forschungsbereich CATALPA, vertreten durch Prof. Torsten Zesch, und Vertreter:innen des Center für digitale Systeme (CediS) der Freien Universität Berlin, die gemeinsam mit Helmut Hofbauer, Dennis Möbus und Almut Leh an den Forschungsprojekten Oral-History.Digital und Open.Oral-History arbeiten.

Ziel des Workshops war, Entitäten automatisch in Interviewtranskripten zu erkennen, um diese a) besser zu erschließen durch die Anreicherung von Informationen zu Personen, Orten, Daten etc. und b) diese Erkennung als Grundlage für eine teilautomatisierte Anonymisierung der Transkripte zu nutzen. In einem ersten Panel wurden Anwendungsmöglichkeiten und Verfahren der NER und relevante Entitäten diskutiert. Neben den von der Workshopleitung als „Basisentitäten“ vorgestellten Kategorien Person, Location, Organization, Role und Date wurden weitere (mehr oder weniger) spezifisch historische Entitäten zur Diskussion gestellt (WORK_OF_ART, NORP, EVENT, DATE). Im zweiten Panel konnten verschiedene Verfahren selbst in einer interaktiven Programmierkonsole (Jupyter Notebook) ausprobiert werden. Zur Verfügung standen sieben Transkriptauszüge und vier Verfahren: das auf „klassischem“ Machine Learning (ML) beruhende SpaCy, transformerbasierte Ansätze (BERT und GliNER) und Promptingansätze (mit den LLMs Llama 3.3 70B und Mixtral 8x22).

Im dritten Slot wurde über die Eindrücke und das weitere Vorgehen diskutiert. Dabei ging es unter anderem um die Frage, ob Precision (möglichst fehlerfreie Identifikation von Entitäten) oder Recall (möglichst viele Treffer, dafür aber auch Gefahr von False Positives, also mehr oder weniger starkem Rauschen). Beide Kriterien sind relevant, da bei einer Anonymisierung sichergestellt sein sollte, dass keine sensiblen Entitäten übersehen werden, und bei einer Erschließung keine relevanten Entitäten unter einem Berg von Nonsense verschütt gehen könnten. Alle angewandten Verfahren schlugen in beide Richtungen aus, jedoch waren bei den ML-basierten Verfahren mehr False Positives zu verzeichnen. Einigen Teilnehmer:innen fiel es schwer, die zahlreichen Ergebnisse miteinander zu vergleichen, was die Frage nach Metriken zur Beurteilung der Ergebnisse ins Spiel brachte – da vier der sieben Transkriptauszüge mit einer Groundtruth annotiert waren, könnte man beispielsweise einen F1-Score heranziehen.

Zur Verbesserung der ML-basierten Verfahren wurde diskutiert, ob ein eigenes Modell trainiert werden könne. Allerdings wäre dafür ein eigenes Forschungsprojekt erforderlich, wohingegen eine Verbesserung der Promptingansätze durch System-Prompts, Few-Shot-Prompting oder Retrieval Augmented Generation (RAG) im laufenden Betrieb getestet werden könnte. Im Unterschied zu regelgeleiteten, auf Vokabularen basierenden NER-Verfahren werden die Daten im RAG oder den Beispielen des Few-Shots nicht vollständig iteriert, sondern auf Grundlage von Wahrscheinlichkeiten in die Erstellung der Completion einbezogen.

Interessant waren auch Ideen von hybriden Ansätzen, wo beispielsweise ML-basiert Entitäten mit hohem Rauschen (False Positives) gefunden werden und anschließend von einem entsprechen instruierten LLM beurteilt und gefiltert werden. Hier wurde kritisch angemerkt, dass LLMs ihre Einschätzung auch erfinden könnten. Man könne aber Feedback Loops bzw. Human-in-the-Loop-Verfahren entwickeln, um eine mehrstufige Evaluation mit maschinellen und menschlichen Komponenten zu ermöglichen. Eine Ergänzung durch regelgeleitete Verfahren, die beispielsweise auf Normdatenvokabularen basieren, ist auch denkbar – möglicherweise ist eine Kombination

Da die Grundkategorien (Names, Dates, Places) recht zuverlässig von allen Verfahren erkannt wurden, entstand die Idee, dass man z. B. stufenweise vorgehen und erst Personen und Orte, dann erst komplexere Entitäten erkennen lassen könnte. Darauf aufbauend wurde vorgeschlagen NER und Anonymisierung direkt konzeptionell zu trennen und die Anonymisierung evtl. alleine durch LLM umzusetzen. Dazu kamen noch sehr grundsätzliche Fragen auf, die es im Rahmen von O.OH zu diskutieren gibt: Wie kann man eine Person überhaupt identifizieren? Gibt es Studien dazu, was man anonymisieren muss, um eine Person nicht re-identifizieren zu können?