Data Cleaning mit Linux-Bordmitteln

Kategorie: Masterarbeit

Data Cleaning ist ein entscheidender und oft zeitintensiver Schritt in nahezu allen datengetriebenen Projekten. [1] Während Python-Bibliotheken wie pandas oder numpy als Standard gelten, bieten Linux-Bordmittel eine ressourcenschonende und flexible Alternative – insbesondere für große Datenmengen oder in Umgebungen ohne komplexe Software-Stacks. Trotz ihrer weiten Verbreitung in der Praxis wurde der Einsatz von Linux-Bordmitteln für Data Cleaning in der wissenschaftlichen Literatur bisher kaum untersucht. In dieser Arbeit sollen deshalb die Funktionalität und Performance gängiger Linux-Tools für Data Cleaning evaluiert und mit etablierten Python-Methoden verglichen werden.

Ziel dieser Masterarbeit ist es, die Stärken und Schwächen beider Ansätze systematisch zu analysieren und praxisnahe Empfehlungen für den effizienten Einsatz in unterschiedlichen Szenarien abzuleiten. Zusätzlich soll im Rahmen dieser Arbeit ein prototypischer Adapter für ALPINE (Abstract Language for Pipeline Integration and Execution) [2] implementiert werden.

Voraussetzung für die Bearbeitung dieser Masterarbeit sind die Erfahrung und der Spaß an der Arbeit mit Linux-Standardwerkzeugen und möglichst Erfahrung in Python-Programmierung.

[1] Pedro Martins, Filipe Cardoso, Paulo Váz, José Silva, and Maryam Abbasi (2025:) Performance and Scalability of Data Cleaning and Preprocessing Tools: A Benchmark on Large Real-World Datasets, Data 10

[2] Valerie Restat, Uta Störl (2025): ALPINE: Abstract Language for Pipeline Integration and Execution, DE4DS@BTW 2025.

admin.dbis | 17.10.2025