Aktuelles

Digital unter Tage: Text Mining in der qualitativen Forschung.

[07.05.2021]

Hands-on Workshop
Eine Re-Analyse von Oral History-Transkripten mit den Verfahren des Topic Modeling und der Text/Word Embeddings.


Seit den 1980er Jahren hat sich die Arbeit mit biographisch-narrativen Interviews in den Sozialwissenschaften und der Geschichtswissenschaft in Deutschland etabliert. Mittlerweile liegen aus zahlreichen Projekten tausende Interviews vor, die zwar zu einem spezifischen Thema geführt wurden, aufgrund ihrer lebensgeschichtlichen Anlage aber ein gewaltiges Quellenpotential für andere Forschungsfragen bieten. Jedoch ist die weitere inhaltliche Erschließung dieser Quellen eine große Herausforderung für Sammlungsinhaber*innen, weshalb das Wissen nach dem Abschluss des zugehörigen Forschungsprojekts in größtenteils unstrukturierten Textbeständen unentdeckt vor sich hinschlummert. Text Mining-Verfahren können dabei helfen, bislang unerforschte Inhalte explorativ aufzudecken und große Sammlungen von Transkripten vorzustrukturieren. Zwei dieser Verfahren möchten wir in diesem Workshop vorstellen und selbst erproben. Dazu nutzen wir die digitalisierten Transkripte aus dem ersten großangelegten deutschen Oral History-Projekt Lebensgeschichte und Sozialkultur im Ruhrgebiet (LUSIR), die im Archiv „Deutsches Gedächtnis“ der FernUniversität in Hagen liegen.

In dieser Kooperationsveranstaltung werden Michael Tebbe (Workgroup Human Centered Computing der Freien Universität Berlin) und Dennis Möbus (Koordination der Forschungsgruppe digital humanities im Forschungsschwerpunkt digitale_kultur der FernUniversität in Hagen) die zwei Methoden zur computergestützten Inhaltserschließung – Topic Modeling (Blei et al., 2003), Clusteranalyse von Text-Embeddings (z.B. Cer et al., 2018) – vorstellen.

Seit den 1980er Jahren hat sich die Arbeit mit biographisch-narrativen Interviews in den Sozialwissenschaften und der Geschichtswissenschaft in Deutschland etabliert. Mittlerweile liegen aus zahlreichen Projekten tausende Interviews vor, die zwar zu einem spezifischen Thema geführt wurden, aufgrund ihrer lebensgeschichtlichen Anlage aber ein gewaltiges Quellenpotential für andere Forschungsfragen bieten. Jedoch ist die weitere inhaltliche Erschließung dieser Quellen eine große Herausforderung für Sammlungsinhaber*innen, weshalb das Wissen nach dem Abschluss des zugehörigen Forschungsprojekts in größtenteils unstrukturierten Textbeständen unentdeckt vor sich hinschlummert. Text Mining-Verfahren können dabei helfen, bislang unerforschte Inhalte explorativ aufzudecken und große Sammlungen von Transkripten vorzustrukturieren. Zwei dieser Verfahren möchten wir in diesem Workshop vorstellen und selbst erproben. Dazu nutzen wir die digitalisierten Transkripte aus dem ersten großangelegten deutschen Oral History-Projekt Lebensgeschichte und Sozialkultur im Ruhrgebiet (LUSIR), die im Archiv „Deutsches Gedächtnis“ der FernUniversität in Hagen liegen.

In dieser Kooperationsveranstaltung werden Michael Tebbe (Workgroup Human Centered Computing der Freien Universität Berlin) und Dennis Möbus (Koordination der Forschungsgruppe digital humanities im Forschungsschwerpunkt digitale_kultur der FernUniversität in Hagen) die zwei Methoden zur computergestützten Inhaltserschließung – Topic Modeling (Blei et al., 2003), Clusteranalyse von Text-Embeddings (z.B. Cer et al., 2018) – vorstellen.