Aktenzeichen XY... gelöst: Nutzung von Text Mining und Machine Learning für die Dokumentablage bei einer Behörde

Die Dokumentenveraktung in Behörden ist häufig ein manueller, langwieriger Prozess. Wir zeigen wie dieser durch Text Mining und Machine Learning optimiert werden kann. Für Datenvorverarbeitung, Modellerstellung und -evaluation stellen wir die Python-Bibliotheken pdfminer und scikit-learn vor. Mithilfe einer manuellen Korrekturschleife wird die stetige Verbesserung der Prozesse gesichert.

Wir erläutern Software Engineering Methoden für den Aufbau einer wiederverwendbaren Analyseumgebung zur Erzeugung qualitätsgesicherter Ergebnisse (testgetriebene Entwicklung, Modularisierung, Lifecycle-Management). Auch die Themen Datensicherheit und Cloud- vs. On-Premises-Betrieb werden angesprochen.

Vorkenntnisse

* Machine-Learning-Grundlagen (Arbeiten mit Klassifikatoren)

Lernziele

* Verständnis der Vorgehensweise beim Trainieren eines Klassifikators auf Dokumentinhalten

 

Speaker

 

Johannes Lang
Johannes Lang arbeitet seit über 12 Jahren bei HMS Analytical Software in fachbezogenen Datenanalyse-Projekten, mittlerweile als Software-Architekt. Seine Schwerpunkte sind Software Engineering und Text-Analytics-Methoden bei Kunden unterschiedlicher Branchen. Bereits während des Computerlinguistik-Studiums kam er mit Machine Learning in Kontakt.

Gold-Sponsoren

HMS
Structr

Silber-Sponsoren

codecentric
Phytec

Bronze-Sponsor

incontext.technology GmbH

data2day-Newsletter

Sie möchten über die data2day
auf dem Laufenden gehalten werden?

 

Anmelden