Zurück

Improve your data: Mit Machine Learning zur besseren Stammdatenqualität

Das Erkennen von Duplikaten in Stammdaten spielt eine entscheidende Rolle für moderne Geschäftsberichte und -analysen. Herkömmliche Ansätze erfordern mühsame manuelle Arbeit, bei der spezifische Regeln und Ähnlichkeitsmaße formuliert werden müssen. Dieser Prozess ist zeitaufwendig und auf bestimmte Datensätze beschränkt.

Im Gegensatz dazu sind Machine-Learning-Methoden in der Lage, automatisch Muster und Regeln abzuleiten, um Duplikate zu erkennen und so die Datenqualität in den Stammdaten zu verbessern. Dieser Vortrag zeigt den Einsatz von Machine Learning in der Duplikaterkennung und die damit verbundenen Vorteile für Stammdaten und Geschäftsprozesse.

Neben dem eigentlichen Prozess gibt es auch eine anschauliche Demo, wie Neuronale Netze in den Matching-Ablauf einer Master-Data-Management-Software integriert werden können, um komplexe Matching-Situationen zu bewältigen.

Vorkenntnisse

Grundkenntnisse in

Datenmanagement
Datenintegration
Data Governance
Machine Learning

Lernziele

Wir klären, wieso die Datenqualität der Stammdaten wichtig für Business Intelligence und Entscheidungen ist
Wir lernen den Prozess zur Duplikaterkennung vom Preprocessing der Daten bis hin zum Matching und Gruppieren der Ergebnisse kennen
Wir sehen, wie Machine Learning hilft, Duplikate in Stammdaten zu identifizieren – ohne Regeln explizit zu nennen
Wir erfahren, wie die Einbindung von Machine Learning direkt in ein MDM-System erfolgen kann – ohne Notwendigkeit für ein separates System

Speaker

Igor Shmelev ist Software Engineer bei PRODATO und hat sich auf Data Governance mit Schwerpunkt Data Quality und Master Data spezialisiert. Dabei sieht er den Einsatz von Machine Learning als essenzielles Mittel, um datenzentrierte Herausforderungen von heute und morgen effektiv anzugehen.

Melanie B. Sigl ist Managing Consultant und leitet den Bereich Machine Learning bei PRODATO Integration Technology GmbH. Zusätzlich ist sie Lehrbeauftragte für "Knowledge Discovery in Databases" am Lehrstuhl für Datenmanagement an der FAU Erlangen-Nürnberg.