Was ist Unsupervised Learning?
Unsupervised Learning Algorithmen werden mit dem Ziel eingesetzt, Muster und/oder Strukturen in Daten zu erkennen oder Informationen zu extrahieren. Sie werden also deskriptiv eingesetzt und benötigen daher keine „beschrifteten“ Datensätze. Somit eigenen sie sich gut für explorative Datenanalysen.
Die drei am häufigsten aufgeführten Einsatzgebiete von Unsupervised ML Algorithmen sind Clustering, Assoziationsanalysen und Dimensionsreduktion.
Das erste und bekannteste Einsatzgebiet von Unsupervised ML Algorithmen ist Clustering. Dabei wir der Datensatz durch den Algorithmus anhand der Ähnlichkeit der Daten in verschiedene Gruppen (Cluster) unterteilt und somit eine Struktur in den Daten gefunden. Ein Beispiel ist die Zuordnung von Äpfeln, Erdbeeren und Bananen in drei Cluster anhand ihrer Merkmale wie Form und Farbe. Allerdings weiß der Algorithmus nicht, dass es sich um verschiedene Obstsorten handelt, sondern ordnet das Obst lediglich anhand der Ähnlichkeit den Clustern zu.
Das zweite Einsatzgebiet von Unsupervised ML Algorithmen sind Assoziationsanalysen. Stark vereinfacht ausgedrückt identifiziert der Algorithmus hierbei Objekte, die in einem Datensatz häufig zusammen auftreten. Ein Beispiel für den praktischen Einsatz sind sogenannte Warenkorbanalysen, bei denen untersucht wird, welche Produkte zusammen gekauft werden.
Das letzte Einsatzgebiet von Unsupervised ML Algorithmen ist die Dimensionsreduktion. Grundlegendes Ziel dabei ist es, die Komplexität des Datensatzes zu reduzieren und gleichzeitig den Informationsgehalt bestmöglich beizubehalten.
Ein bekannter und häufig verwendeter Unsupervised Learning Algorithmus ist K-Means.
Zwar hat Unsupervised Learning viele Vorteile, bringt aber auch einige Herausforderung mit sich: Aufgrund der hohen Rechenkomplexität sind die Berechnungen oft zeitaufwendig und ressourcenintensiv. Zudem ist es schwierig das Ergebnis von Unsupervised Learning Algorithmen nachzuvollziehen und zu überprüfen. Darüber hinaus müssen die Outputs der Unsupervised Learning Algorithmen immer von Menschen interpretiert werden.
Schaden gut. Alles gut.