Mehr aus den Quellen der Erkenntnis schöpfen

Audiovisuelle Medien werden in der wissenschaftlichen Lehre und der Kommunikation immer wichtiger, insbesondere in den Geistes-, Kultur- und Sozialwissenschaften nimmt ihre Bedeutung durch die Digitalisierung, den „Digital Turn“, auch in der Forschung zu. Ein Vorreiter beim Einsatz von Mikrofon und Videokamera ist das Institut für Geschichte und Biographie (IGB) der FernUniversität in Hagen: Audio- und Video-Interviews mit Zeitzeugen sind seit Jahrzehnten die zentrale Grundlage seiner lebensgeschichtlichen Forschungen im Bereich der Oral History und für die Produktion wissenschaftlicher Filme. Seine Kompetenzen beim Einsatz audiovisueller Medien in der Forschung bringt das IGB jetzt in ein Verbundprojekt ein, in dem Werkzeuge und Verfahren zur Spracherkennung entsprechend den Bedürfnissen der Wissenschaft weiterentwickelt werden. Gefördert wird es vom Bundesministerium für Bildung und Forschung.

Eine Frau steht vor einer Wand, auf die ein Video projiziert wird. Foto: Veit Mette
Almut Leh vor der Projektion eines Videos mit dem früheren FernUni-Rektor Prof. Ulrich Battis

Wirklich bemerkenswert“ ist für Dr. Almuth Leh, „dass wir mit unseren audiovisuellen Medien eine gewisse Vorreiterrolle bei der Digitalisierung haben, weil man sich in den ‚Digital Humanities‘ bisher zwar mit Textbearbeitung und Bilderkennung beschäftigt, die Arbeit mit audiovisuellen Medien gerade aber erst anfängt“. Sie leitet das Archiv „Deutsches Gedächtnis“ des IGB. Dr. Eva Ochs, Wissenschaftliche Mitarbeiterin des IGB, ergänzt: „In allen Bereichen – Visualisierung, Edition, Text-Bild-Quellen, Filmdrehs – geht die Digitalisierung mit Macht los. Nur nicht bei der intensiven Auswertung audiovisueller Quellen wie Filminterviews.“

Transskripte per Software analysieren

Der Leitende Direktor des IGB, Prof. Dr. Arthur Schlegelmilch, erklärt das unter anderem mit den vielfach größeren Datenmengen, die bei digitalen Auswertungen anfallen: „Sie können sehr viel Zeit und Kraft beanspruchen. Wir haben zudem den Eindruck, dass das technologische Interesse im Verhältnis zur konkreten Anwendung zuweilen zu stark dominiert.“ Gleichwohl sieht er viele neue Möglichkeiten: „Die vielen Potentiale der Digitalisierung auf allen Ebenen eröffnen neue analytische Erkenntnismöglichkeiten. So gibt es schon erste Forschungsergebnisse, die auf andere Art und Weise gar nicht hätten erzielt werden können! Es werden sich neue Forschungsbereiche herauskristallisieren. Das IGB ist hierfür gut aufgestellt.“

Die Auswertung von Audio- und Videobändern mit Interviews erfolgt herkömmlich durch die wortgetreue Verschriftlichung in Transkripten. Diese können heute digital per „Text Mining“-Software analysiert werden, sodass Strukturen und Kerninformationen erkannt werden. Größere Datenmengen als früher können also bereits auf dieser Stufe anfallen. Entsprechend aufwendiger wird die Auswertung der Aufnahmen.

Gleichzeitig fehlt den Transkripten aber immer noch ein Großteil der Informationen. Almut Leh: „Früher haben wir argumentiert, dass die Magnetband-Aufzeichnungen die eigentliche Forschungsquelle seien. In der Forschungspraxis haben wir uns aus Gründen der Praktikabilität jedoch meistens mit dem Transkript zufrieden gegeben. Gerade beim Vergleich von Text und Film merkt man jedoch, wie viel Informationen dem Transkript fehlen.“ Welchen Wert beispielsweise ihre Informationen für die Interviewten selbst haben, kann bei der Auswertung oft erst durch Betonungen, Sprechmelodie, Gestik und Mimik etc. interpretiert werden. In Transkripten sind diese – wenn überhaupt – meistens nur mit einem Stichwort wiedergegeben, etwa in der Form „[lacht]“.

Intelligente Analyse- und Auswertungsmethoden

Wirklich aussagekräftig wird ein Transkript also erst durch die Verbindung mit der Audio- bzw. Videoaufzeichnung. Eine Spracherkennungssoftware kann den geschriebenen Text sogar automatisch generieren, seine Teile erscheinen in der zugehörigen Videosequenz als Untertitel. Leh: „Man analysiert den Inhalt dann gleichzeitig mit der Art, wie gesprochen wird.“

Hier bringt der „Digital Turn“ ganz neue Möglichkeiten ins Spiel. Durch intelligente Analyse- und Auswertungsmethoden des „Audio Minings“ können Interviews automatisch in thematische Segmente unterteilt werden. Sprecher und Sprecherwechsel sind identifizierbar, Sprache kann in Text umgewandelt werden. Damit wird ein direkter Zugriff auf einzelne Begriffe, Abschnitte und Ereignisse möglich. Teile können kopiert, abgespeichert und an anderer Stelle verwendet, Notizen und Kommentare hinzugefügt werden. „Durch das Zusammenspiel von Text und Video sind sprachliche und nicht-sprachliche Aspekte der Kommunikation differenziert erfassbar“, so Leh. „Ich arbeite nicht mehr nur mit den Texten, sondern mit dem vollständigen Interview als Videoaufzeichnung. Dass das ein höheres Erkenntnispotential hat, liegt auf der Hand.“ Digitalisierte Informationen bieten zudem viel umfangreichere Dokumentations-, Publikations- und Archivierungsmöglichkeiten.

Eine Frau interviewt einen Mann Foto: FernUniversität
Eine typische Situation für die Mitarbeitenden im Institut für Geschichte und Biographie: Almut Leh interviewt einen Zeitzeugen.

Noch Probleme bei der Spracherkennung

Für die Wissenschaft gibt es aber ein gravierendes Problem. „Jeder denkt, Spracherkennung funktioniert wunderbar“, erläutert Leh. „Doch bisher stimmt das nur für ‚geplante‘ Sprache. In Rundfunkarchiven, in denen es um Aufnahmen von geübten Sprechern und hochprofessionelle Aufnahmetechnik geht, kann die Spracherkennung deshalb schon mit großem Erfolg angewendet werden.“ Forschende dagegen sind oft – von undeutlicher Aussprache und Dialekten der Interviewten ganz abgesehen – mit Rauschen, Übersteuerung, schlechter Mikrofonplatzierung, der Alterung von Magnetbändern und anderen technischen Problemen konfrontiert.

In dem aktuellen Projekt mit dem Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme wird jetzt eine von diesem entwickelte Spracherkennung den Bedürfnissen der Wissenschaft entsprechend weiterentwickelt. Das IGB stellt hierfür archivierte Interviews zur Verfügung und evaluiert die entwickelten Werkzeuge in einer Pilotstudie. Weitere Partner sind das Max-Planck-Institut für Psycholinguistik, Nijmegen, und das Data Center for the Humanities, Universität zu Köln. Das Institut für Linguistik, Universität zu Köln, repräsentiert einen weiteren Anwendungsbereich und koordiniert das Gesamtprojekt.

Was ändert sich die Forschung durch den „Digital Turn”?

In der Pilotstudie geht es auch um die Frage, was sich durch den „Digital Turn“ für die Forschung selbst ändert. Almut Leh: „Gibt es einen Erkenntnisgewinn? Lassen sich sprachliche Veränderungen in einem Interview mit bestimmten Inhalten zusammenbringen? Sprechen etwa Menschen vom Krieg anders als von anderen Themen? Kann man das rein stimmlich analysieren? Das ist anspruchsvoll und funktioniert zurzeit kaum.“ Sie hofft, dass sich mit Hilfe weiterentwickelter Sprachtechnologien auch analysieren lässt, wie Geschichte verarbeitet wurde: „Das ist ja unser Ansatz im Institut.“

Über eine digital gesteuerte Inhaltsanalyse wäre zu ermitteln, wie groß der Anteil des Themas „Krieg“ im Interview ist – nicht nur bei einem, sondern auch bei einer großen Zahl von Interviews. „Wir haben über 700 Interviews mit Männern, die Wehrmachtssoldaten im Zweiten Weltkrieg waren. Über eine automatische Schlüsselwort-Generierung könnte man sehen, in welchen Passagen davon die Rede ist. Und wer bringt das Thema ein – die interviewte Person oder die interviewende?“, so Leh. „Die Digitalisierung ermöglicht es erstmals, für einen großen Datenbestand Fragen zu formulieren, zu beantworten und dann etwa zu schauen: Reden damals junge Menschen anders über den Krieg als ältere?

Gerd Dapprich | 28.02.2018