Clustering-Analyse

Das boomende Wachstum des World Wide Web hat immer mehr Informationen in einem nie gesehenen Tempo und Umfang digital verfügbar gemacht. Auch das Web selbst kann als beispiellos angesehen werden, was das fast vollständige Fehlen von Koordination bei seiner Erstellung und die Vielfalt der Hintergründe und Motive seiner Teilnehmer betrifft. All dies trägt dazu bei, die explorative Datenanalyse zu erschweren.
Einer der Schritte in der explorativen Datenanalyse ist die Clustering-Phase. Clustering ist die unsupervised Klassifikation von Mustern (Beobachtungen, Datenelementen oder Merkmalsvektoren) in Gruppen (Clustern). Das Clustering-Problem wurde in vielen Kontexten und von Forschern in vielen Disziplinen behandelt; dies spiegelt seine breite Attraktivität und Nützlichkeit wider.

Drei wichtige Anwendungen von Clustering-Algorithmen im Information Retrieval:

  • Ähnlichkeitssuche für hochdimensionale Datenpunkte mit dem Ziel, Beinahe-Duplikate zu finden;
  • Messung latenter Variablen in den Sozialwissenschaften mit dem Ziel, Forschungsgemeinschaften zu visualisieren; und
  • Generatives Modell zur Inhaltsanalyse von Dokumenten, um Ereignisse zu erkennen.

Typische Clustering-Aktivitäten, die alle oder einige der folgenden Schritte beinhalten:

  • Musterdarstellung (einschließlich Merkmalsextraktion und/oder -auswahl);
  • Definition eines für die Datendomäne geeigneten Maßes für die Musternähe;
  • Clustering/Gruppierung; und
  • Bewertung der Ausgabe.