Zurück

Ordnung im Blog: Strukturierung umfangreicher Datenmengen durch Topic-Modeling

Der enorme Zuwachs an Text als wesentliches Kommunikationsmittel unserer Gesellschaft erfordert Methoden, die riesige Textmengen erkundbar machen. Zur besseren Verwaltung und Organisation der stetig wachsenden Sammlung von Dokumenten ist die Einteilung in Themenblöcke hilfreich, aber meist von Hand zu aufwendig. Eine automatisierte Bestimmung von Topics bzw. Themen bezweckt das sogenannte "Topic Modeling" aus dem Bereich NLP (Verarbeitung natürlicher Sprachen).

Der Vortrag gibt eine praxisorientierte Einführung in die Strukturierung von Textdokumenten. Am Beispiel von rund 700 Blogartikeln zeigen wir, wie sich mit Hilfe von Methoden der linearen Algebra und Wahrscheinlichkeitstheorie (NMF und LDA) sinnvolle Gruppierungen in Topics finden lassen und wie diese beurteilt werden können. Dies ermöglicht weitergehende Analysen, wie der zeitlichen Veränderung von Topics oder die Ermittlung von Trends.

Vorkenntnisse

Interesse an der Verarbeitung natürlicher Sprachen.

Lernziele

Nach dem Vortrag kennen die Zuhörer grundlegende Techniken zur Einteilung von umfangreichen Textsammlungen in Themeneinheiten sowie deren Vor- und Nachteile. Die verwendeten Techniken lassen sich zudem für andere semistrukturierte Daten, wieBilder und Videos verwenden.

Speaker

Daniel Pape arbeitet als Data Scientist und Analytics Engineer im Data-Science-Team der codecentric AG.

Matthias Radtke ist Data Scientist bei der codecentric AG. Der promovierte Physiker analysiert Daten aller Erscheinungsformen und entwickelt datengetriebene, intelligente Lösungen und Produkte für Unternehmen der digital transformierten Welt.

Jetzt Tickets sichern

Gold-Sponsoren

Silber-Sponsoren

Bronze-Sponsor

JETZT SPONSOR WERDEN

data2day-Newsletter

Sie möchten über die data2day
auf dem Laufenden gehalten werden?

Anmelden