Improve your data: Mit Machine Learning zur besseren Stammdatenqualität
Das Erkennen von Duplikaten in Stammdaten spielt eine entscheidende Rolle für moderne Geschäftsberichte und -analysen. Herkömmliche Ansätze erfordern mühsame manuelle Arbeit, bei der spezifische Regeln und Ähnlichkeitsmaße formuliert werden müssen. Dieser Prozess ist zeitaufwendig und auf bestimmte Datensätze beschränkt.
Im Gegensatz dazu sind Machine-Learning-Methoden in der Lage, automatisch Muster und Regeln abzuleiten, um Duplikate zu erkennen und so die Datenqualität in den Stammdaten zu verbessern. Dieser Vortrag zeigt den Einsatz von Machine Learning in der Duplikaterkennung und die damit verbundenen Vorteile für Stammdaten und Geschäftsprozesse.
Neben dem eigentlichen Prozess gibt es auch eine anschauliche Demo, wie Neuronale Netze in den Matching-Ablauf einer Master-Data-Management-Software integriert werden können, um komplexe Matching-Situationen zu bewältigen.
Vorkenntnisse
Grundkenntnisse in
- Datenmanagement
- Datenintegration
- Data Governance
- Machine Learning
Lernziele
- Wir klären, wieso die Datenqualität der Stammdaten wichtig für Business Intelligence und Entscheidungen ist
- Wir lernen den Prozess zur Duplikaterkennung vom Preprocessing der Daten bis hin zum Matching und Gruppieren der Ergebnisse kennen
- Wir sehen, wie Machine Learning hilft, Duplikate in Stammdaten zu identifizieren – ohne Regeln explizit zu nennen
- Wir erfahren, wie die Einbindung von Machine Learning direkt in ein MDM-System erfolgen kann – ohne Notwendigkeit für ein separates System