Search at Petabyte Scale: Approximate-Nearest-Neighbor-Suche

In vielen Big-Data-Anwendungen müssen riesige Datensätze schnell durchsucht werden, um relevante Information wie Kundenprofile, Bilder oder Dokumente zu finden. Der naive Suchaufwand wächst linear mit der Zahl der gespeicherten Daten: ein tödliches Problem für skalierbare Real-Time-Big-Data-Lösungen.

Approximate-Nearest-Neighbor-Methoden (ANN) finden die gesuchten Ergebnisse mit hoher Wahrscheinlichkeit, bei zugleich exponenziell reduziertem Aufwand. Diese innovative Technologie ermöglicht erst die Skalierung datenintensiver Anwendungen in den Petabyte-Bereich.

In meinem Talk werde ich die Basics von ANN erläutern und eine Bildersuche mittels einer Python-Open-Source-Toolbox demonstrieren.

Vorkenntnisse
Ich präsentiere eine innovative Theorie, die vielfältig einsetzbar und zugleich leicht zu begreifen ist. Spezielles Vorwissen ist nicht erforderlich.

Lernziele
Der Ziel des Vortrags ist es, die theoretischen Grundlagen von Approximate Nearest Neighbors zu vermitteln und die praktische Anwendung der Methode mit Open-Source-Tools auf einen Image-Datensatz zu zeigen.

// Calvin Seward

ist Research Scientist bei Zalando Research und zugleich Doktorand bei Professor Sepp Hochreiter an der Johannes-Kepler-Universität Linz. Er arbeitet hauptsächlich im Feld Bilderkennung, bemüht sich aber zugleich, die neuesten Entwicklungen im Bereich des maschinellen Lernens und des GPU-gestützten Hochleistungsrechnens in anderen Geschäftsfeldern von Zalando einzubringen.

News
- Herzlichen Dank an alle Teilnehmer, Referenten und Sponsoren, die die data2day 2017 zu einer tollen Konferenz gemacht haben. Mit 250 Gästen war das die bisher größte data2day. Wir wünschen allen eine gute Heimreise. Bis nächstes Jahr!28.09.2017
- Jetzt ist auch das Vortragsprogramm ausgebucht; es sind nur noch Vormerkungen möglich. Freie Plätze bietet noch ein Workshop: "Interaktive Datenanalyse mit Pandas und Jupyter"22.09.2017
+ / -
- Für alle, die von Big Data nicht genug bekommen können: Im Anschluss an die data2day findet das kostenlose Karlsruhe Big Data Meetup statt – in diesem Jahr in der PMA Heidelberg.21.09.2017
- Zwei Wochen bis zur Konferenz: Es gibt nur noch wenige freie Plätze.13.09.2017
- Wir bieten den Workshop "Machine Learning mit PySpark" jetzt auch am 29. September an.05.08.2017
- Der Frühbucherrabatt geht jetzt noch mal zehn Tage länger - bis 14. August.04.08.2017
- Unser zweiter Keynote-Sprecher ist Ramin Assadollahi.03.08.2017
- Das Programm mit 36 Vorträgen und 5 Workshops ist nun online. Und ab sofort bis 4.8. gibt es Tickets zum Frühbucherrabatt.01.06.2017
- Wir haben unser Call for Proposals noch mal um eine Woche bis 2. Mai verlängert24.04.2017
- Zwei weitere Vortragsvideos der data2day 2016 sind jetzt online. Themen: Datenvirtualisierung und Data Lakes07.04.2017
- Noch bis zum 24. April können Sie Vorschläge für Vorträge und Workshops einreichen.06.04.2017
- Herzlich willkommen: inovex ist als Gold-Sponsor dabei!23.03.2017
- Zwei weitere Vortragsvideos der data2day 2016 sind jetzt online.07.02.2017
- Ab sofort und bis zum 24. April können Vorschläge für Vorträge und Workshops eingereicht werden. Der Call for Proposals ist eröffnet.06.02.2017
- Wir freuen uns über zwei treue Sponsoren codecentric und Opitz Consulting.01.02.2017
Gold-Sponsor
Silber-Sponsoren
Veranstalter
Unser Konferenz-Portfolio

Search at Petabyte Scale: Approximate-Nearest-Neighbor-Suche

// Calvin Seward

Kontakt

Unser Konferenz-Portfolio

Impressum

Bilder von der Konferenz