Data Analytics für Data Streams mit Concept Drift


Daten sind in vielen Fällen nicht als ein kompletter Datensatz verfügbar. Stattdessen werden sie in einem Datenstream gesammelt, bei dem sich die Datenquellen verändern können (ein sogenannter Concept Drift). Ein Beispiel sind Daten über das Einkaufsverhalten von Kunden. Zu solchen Datensätzen kommen täglich oder stündlich neue Daten hinzu, die in die Datenanalyse einfließen sollen. Zudem kann sich das Kundenverhalten aufgrund externer Einflüsse verändern (z.B. neue Moden oder demografische Veränderungen beim Erschließen neuer Märkte). In solchen Fällen ist es nicht optimal, die gesamten gesammelten Daten zur Analyse zur verwenden. Und neuere Daten sollten eventuell stärker gewichtet werden. Je nachdem, wie stark sich die Daten verändern. Wir erforschen Algorithmen, die den Concept Drift automatisch erkennen und die Auswahl der Daten zum Berechnen von neuen aktuellen Analysemodellen optimieren. Des Weiteren können unsere Lernalgorithmen mit stark unbalancierten Daten umgehen. Zum Beispiel wenn sich die Anzahl von erfolgreichen Verkäufen sehr stark von der Anzahl potentieller Kunden unterscheidet.