Kostenbasierte Optimierung von Datenqualität mit Meta-Heuristiken
Kategorie: Bachelorarbeit
In datengetriebenen Anwendungen ist die Qualität der zugrunde liegenden Daten entscheidend für die Aussagekraft und Zuverlässigkeit von Analysen und Entscheidungen. Schlechte Datenqualität kann zu fehlerhaften Ergebnissen, erhöhtem Aufwand in der Datenverarbeitung und letztlich zu finanziellen Verlusten führen. [1] Am Lehrstuhl wurde deshalb FONDUE (Fine-tuned Optimization: Nurturing Data Usability & Efficiency) [2] - ein Framework zur Optimierung von Datenqualität - entwickelt. Dieses umfasst die folgenden Schritte:
- Regelbasierte Optimierung: Hier werden Data-Cleaning-Operatoren ausgewählt, die für den vorliegenden Use Case geeignet sind
- Anwendung von Best Practices: Entsprechend der Domäne wird hier die Auswahl möglicher Operatoren weiter eingeschränkt
- Kostenbasierte Optimierung: Es erfolgt eine Auswahl aus den verbleibenden Operatoren, die in eine Reihenfolge gebracht werden müssen, so dass die daraus resultierende Pipeline in einer möglichst guten Datenqualität resultiert.
Ziel dieser Bachelorarbeit ist die Entwicklung eines Verfahrens für die kostenbasierten Optimierung. Hierfür wurde bereits eine Arbeit durchgeführt, die den Einsatz von Meta-Heuristiken analysiert hat. Die konzipierten Ansätze sollen nun praktisch implementiert und evaluiert werden. Dies beinhaltet die Auswahl geeigneter Datenstrukturen, die methodische Umsetzung der entwickelten Heuristiken in einem experimentellen Framework sowie die systematische Evaluation.
Voraussetzung für die Bearbeitung dieser Bachelorarbeit sind das Interesse an der Auseinandersetzung mit komplexen Problemen, der Spaß an den Themen sowie möglichst Erfahrung in Python- Programmierung.
[1] Ivanov, A., Petrova, O., & Pavlov, D. (2025). Quality Management Data-Driven Decisions Fail and How to Fix It. National Journal of Quality, Innovation, and Business Excellence, 2(1), 1-10.
[2] Restat, V., Diestelkämper, I., Klettke, M., & Störl, U. (2025). FONDUE—Fine-Tuned Optimization: Nurturing Data Usability & Efficiency. Journal of Big Data, 12(1), 131., https://doi.org/10.1186/s40537-025-01158-x