Neue Software findet passende Suchbegriffe für Webrecherche

Die freie Software DocAnalyser des Lehrgebiets Kommunikationsnetze der FernUniversität sucht automatisiert nach passenden Begriffen, die eine Internet-Recherche effizienter machen.


Ein Mann blickt in Richtung Kamera, hinter ihm befindet sich eine Grafik mit einer riesigen Zahl von Verbindungen zwischen Stichwörtern. Foto: FernUniversität
Privatdozent Mario Kubek mit einer Grafik, die die Komplexität einer Suchanfrage deutlich macht.

Nach Informationen im Internet und insbesondere im World Wide Web zu recherchieren scheint oft (mindestens) so zeitaufwändig zu sein wie die Nadelsuche im Heuhaufen: Die genau zutreffenden Suchbegriffe sind nicht immer bekannt und müssen erst noch mühsam ermittelt werden, indem die Suche verfeinert und dabei gegebenenfalls sogar in neue Richtungen gelenkt wird. Obwohl bereits fünf bis sechs spezielle Suchbegriffe bei wissenschaftlichen Recherchen häufig zum Erfolg führen, ist dies selbst für rechercheerfahrene Wissenschaftlerinnen und Wissenschaftler häufig ein langwieriger, aufwändiger und fehleranfälliger Lese- und Lernprozess.

Um die benötigten Begriffe oder Terme schnell zu finden, ist am Lehrgebiet Kommunikationsnetze an der FernUniversität in Hagen (Prof. Dr. Herwig Unger) die frei verfügbare, interaktive Suchanwendung DocAnalyser entwickelt worden, die diesen Leseprozess technisch nachempfindet. Die Federführung hierbei hatte Privatdozent Dr. Mario Kubek. Der DocAnalyser war ein Teil seiner Arbeit, mit der er sich an der FernUniversität kürzlich habilitierte.

Automatisiert verwandte Dokumente finden

Mit dieser Software ist es erstmals möglich, automatisiert thematisch verwandte Dokumente im Web zu finden, indem komplette Seiten oder ausgewählte Teile semantisch – also entsprechend ihrer Bedeutung für den Text – analysiert werden. Sie identifiziert selbst weitere Schlüsselwörter und Quellthemen, aus denen sie selbst neue Suchanfragen generiert, mit denen weitere relevante Webdokumente gefunden werden. Quellthemen sind diejenigen Wörter in einem Text, die seine Bedeutung besonders beeinflussen: „Das ist eine tiefe semantische, qualitative Analyse und nicht mehr weit von Künstlicher Intelligenz entfernt“, betont Kubek. „Der DocAnalyser nimmt uns sehr viel manuelle Arbeit ab. Er kann sogar nach Bildern suchen.“

„Der DocAnalyser nimmt uns sehr viel manuelle Arbeit ab. Er kann sogar nach Bildern suchen.“

Privatdozent Mario Kubek

Vom Allgemeinen zum Speziellen

Der DocAnalyser kann auch bedeutungsähnliche Beziehungen zwischen Such- und Schlüsselwörtern erlernen. So ist es möglich, automatisch erzeugte oder manuelle Sucheingaben durch passende Suchwörter zusätzlich erweitern zu lassen und allgemeine Anfragen immer weiter zu spezialisieren. Dieses Lernen findet in den User-Webbrowsern statt – auf der Basis der bisher analysierten Dokumente. Daher ist es nutzerspezifisch und individuell. Die gefundenen Dokumente präsentiert der DocAnalyser nach ihrer Relevanz geordnet in einer Ergebnisliste, also in der von herkömmlichen Suchmaschinen bekannten Form.

Die Praxis demonstriert Mario Kubek anhand einer Recherche zum Thema „Was passiert im Gehirn beim Träumen?“ Zum Einstieg, also um zunächst generell etwas hierzu herauszufinden, gibt er den Term „Traum“ ein. Dann ruft er eines der schnell gefundenen Web-Dokumente auf, um es analysieren zu lassen. Dafür müssen zuvor lediglich die Bookmarklets I – „Analyse this Content“ bzw. II – „Analyse a Web Content“ von der Seite http://www.docanalyser.de im Browser abgespeichert worden sein. Nun kann durch Anklicken jede aufgerufene Webseite bzw. jede eingegebene Web-Adresse analysiert werden – ein Klick auf eines der beiden Bookmarklets genügt.

DocAnalyser liest Dokumente

Selbstverständlich ist es auch möglich, nur mit eigenen Termen zu suchen. Kubek: „Der DocAnayser nimmt mir das Lesen eines unbekannten Dokumentes ab und stellt mir die für mich wichtigen Begriffe automatisiert zur Verfügung.“ Zudem listet die Software die vier relevantesten Terme auf, in diesem Fall Traum, Schlaf, Menschen, Freud. Kubek: „Weil mich keine Traum-Interpretationen interessieren, sondern Vorgänge im Gehirn, entferne ich den Hinweis auf Siegmund Freud und ergänze ‚Gehirn‘.“ Die neue Suche führt nun in andere Richtungen, etwa zu den schnellen Augenbewegungen während des Schlafens (REM – Rapid Eye Movement).

Zudem unterstützt der DocAnalyser auch die Navigation und dokumentiert die Historie der bereits analysierten Dokumente: „Sie werden lokal gesammelt und ich kann sie nochmals verwenden.“ Die Browser-Chronik enthält die zu jedem analysierten Dokument wichtigsten Informationen wie Titel, Links, Schlüsselwörter und Quellthemen.

Kubeks Fazit: „Die Software ermöglicht die Suche mit Web-Dokumenten ohne manuelle Eingabe. Ich ‚werfe‘ ein Dokument in den DocAnalyser, der automatisch die für mich wichtigen Ergebnisse generiert. Selbst lesen muss ich es nicht mehr.“

Gerd Dapprich | 01.04.2019