Ordnung im Blog: Strukturierung umfangreicher Datenmengen durch Topic-Modeling

Der enorme Zuwachs an Text als wesentliches Kommunikationsmittel unserer Gesellschaft erfordert Methoden, die riesige Textmengen erkundbar machen. Zur besseren Verwaltung und Organisation der stetig wachsenden Sammlung von Dokumenten ist die Einteilung in Themenblöcke hilfreich, aber meist von Hand zu aufwendig. Eine automatisierte Bestimmung von Topics bzw. Themen bezweckt das sogenannte "Topic Modeling" aus dem Bereich NLP (Verarbeitung natürlicher Sprachen).

Der Vortrag gibt eine praxisorientierte Einführung in die Strukturierung von Textdokumenten. Am Beispiel von rund 700 Blogartikeln zeigen wir, wie sich mit Hilfe von Methoden der linearen Algebra und Wahrscheinlichkeitstheorie (NMF und LDA) sinnvolle Gruppierungen in Topics finden lassen und wie diese beurteilt werden können. Dies ermöglicht weitergehende Analysen, wie der zeitlichen Veränderung von Topics oder die Ermittlung von Trends.

Vorkenntnisse
Interesse an der Verarbeitung natürlicher Sprachen.

Lernziele
Nach dem Vortrag kennen die Zuhörer grundlegende Techniken zur Einteilung von umfangreichen Textsammlungen in Themeneinheiten sowie deren Vor- und Nachteile. Die verwendeten Techniken lassen sich zudem für andere semistrukturierte Daten, wieBilder und Videos verwenden.

// Daniel Pape

arbeitet als Data Scientist und Analytics Engineer im Data-Science-Team der codecentric AG.

// Matthias Radtke

ist Data Scientist bei der codecentric AG. Der promovierte Physiker analysiert Daten aller Erscheinungsformen und entwickelt datengetriebene, intelligente Lösungen und Produkte für Unternehmen der digital transformierten Welt.

News
- Herzlichen Dank an alle Teilnehmer, Referenten und Sponsoren, die die data2day 2017 zu einer tollen Konferenz gemacht haben. Mit 250 Gästen war das die bisher größte data2day. Wir wünschen allen eine gute Heimreise. Bis nächstes Jahr!28.09.2017
- Jetzt ist auch das Vortragsprogramm ausgebucht; es sind nur noch Vormerkungen möglich. Freie Plätze bietet noch ein Workshop: "Interaktive Datenanalyse mit Pandas und Jupyter"22.09.2017
+ / -
- Für alle, die von Big Data nicht genug bekommen können: Im Anschluss an die data2day findet das kostenlose Karlsruhe Big Data Meetup statt – in diesem Jahr in der PMA Heidelberg.21.09.2017
- Zwei Wochen bis zur Konferenz: Es gibt nur noch wenige freie Plätze.13.09.2017
- Wir bieten den Workshop "Machine Learning mit PySpark" jetzt auch am 29. September an.05.08.2017
- Der Frühbucherrabatt geht jetzt noch mal zehn Tage länger - bis 14. August.04.08.2017
- Unser zweiter Keynote-Sprecher ist Ramin Assadollahi.03.08.2017
- Das Programm mit 36 Vorträgen und 5 Workshops ist nun online. Und ab sofort bis 4.8. gibt es Tickets zum Frühbucherrabatt.01.06.2017
- Wir haben unser Call for Proposals noch mal um eine Woche bis 2. Mai verlängert24.04.2017
- Zwei weitere Vortragsvideos der data2day 2016 sind jetzt online. Themen: Datenvirtualisierung und Data Lakes07.04.2017
- Noch bis zum 24. April können Sie Vorschläge für Vorträge und Workshops einreichen.06.04.2017
- Herzlich willkommen: inovex ist als Gold-Sponsor dabei!23.03.2017
- Zwei weitere Vortragsvideos der data2day 2016 sind jetzt online.07.02.2017
- Ab sofort und bis zum 24. April können Vorschläge für Vorträge und Workshops eingereicht werden. Der Call for Proposals ist eröffnet.06.02.2017
- Wir freuen uns über zwei treue Sponsoren codecentric und Opitz Consulting.01.02.2017
Gold-Sponsor
Silber-Sponsoren
Veranstalter
Unser Konferenz-Portfolio

Ordnung im Blog: Strukturierung umfangreicher Datenmengen durch Topic-Modeling

// Daniel Pape

// Matthias Radtke

Kontakt

Unser Konferenz-Portfolio

Impressum

Bilder von der Konferenz