Intelligente Datenintegration – ML als Katalysator zur Wertschöpfung aus Daten

Auf dem Weg zur modernen Advanced-Analytics-Anwendung ist die Datenintegration ein notwendiger, aber auch aufwendiger Schritt. Da es sich dabei oft um repetitive Prozesse handelt, liegt es nahe, den manuellen Aufwand mittels Machine Learning zu reduzieren.

In diesem Vortrag stelle ich ein praxiserprobtes Konzept vor, um die zeitaufwendige Integration tabellarischer Daten deutlich zu beschleunigen. Das Herzstück ist ein Python-Paket, das mit Hilfe eines XGBoost-Modells Tabellenspalten klassifiziert und damit die Grundlage für das eigentliche Schema Matching schafft. Der Vortrag behandelt neben dem analytischen Kern auch technische Aspekte und stellt die gemachten Projekterfahrungen heraus.

Vorkenntnisse

Grundlagen in Machine Learning (genauer Supervised Learning) und relationalen Datenbanken.

Lernziele

Relevanz des Themas Datenintegration als Voraussetzung für viele Advanced-Analytics-Anwendungen wie Machine Learning verdeutlichen:
• Anwendungsgebiete aufzeigen.
• Problemstellung "Schema Matching" und dessen Herausforderungen präsentieren.
• Anhand der Projekte und ihrer unterschiedlichen Anforderungen erläutern, warum es bisher keine One-Fits-All-Lösung gibt (unsaubere Daten, sehr unterschiedliche Formate, SAS vs. Excel, Komplexität des Schema Matching z.B. wenn die Daten in mehreren Tabellen gespeichert sind und beim Matching Daten auch die Tabellen "wechseln").
• Vorstellung eines Lösungskonzepts für die intelligente Datenintegration (Datenmodell, Feature-Engineering, Prediction Perfomance des XGBoost in der Praxis, Umsetzung in Projekten und Entwicklungsprozess hin zur vollen Anwendung, Funktionsumfang des Python-Pakets vs. projektspezifische Funktionen der Anwendung, Einbettung des Schema Matching in die Gesamtsoftwarearchitektur).
• Projekterfahrungen mitteilen (Schwierigkeiten beim Anforderungsmanagement, Hürden bei der praktischen Umsetzung, Lessons Learned aus Sicht der Projektplanung).

 

Speaker

 

David Hipp
David Hipp ist Data Scientist und Projektleiter bei der HMS Analytical Software GmbH in Heidelberg. Während seiner Promotion in Mathematik forschte er an Werkzeugen, um die Güte von Wellensimulationen zu bestimmen und engagierte sich in der Wissenschaftskommunikation. Heute automatisiert er Datenintegration mit Hilfe von Machine Learning und entwickelt Advanced-Analytics-Plattformen.

Gold-Sponsoren

HMS
Structr

Silber-Sponsoren

codecentric
Phytec

Bronze-Sponsor

incontext.technology GmbH

data2day-Newsletter

Sie möchten über die data2day
auf dem Laufenden gehalten werden?

 

Anmelden