Machine Learning: Was ist der Unterschied zwischen Regressions- und Klassifikationsalgorithmen?
Zunächst einmal sind sowohl Regressions- als auch Klassifikationsalgorithmen den SupervisedLearning Algorithmen zu zuordnen. Denn obwohl sie verschiedene Probleme lösen, ist das Grundprinzip für beide dasselbe: Algorithmen erlernen anhand eines „beschrifteten“ Datensatzes eine Funktion f(x), die jedem Input x einen Output y zuordnet. Das Ziel ist es, die Funktion f(x) so genau wie möglich zu bestimmen, um anhand dieser möglichst präzisen Vorhersagen für neue Inputs treffen zu können.
Der grundlegende Unterschied zwischen Regressions- und Klassifikationsalgorithmen ist, dass der Output eines Regressionsalgorithmus numerisch ist, während der Output bei einem Klassifikationsalgorithmus kategorisch ist.
Ein Beispiel für ein Regressionsproblem ist die Vorhersage von Hauspreisen anhand verschiedener Merkmale wie der Größe, der Anzahl der Zimmer und der Lage. In diesem Fall würde man einen Regressionsalgorithmus verwenden und ihn mit einem Datensatz trainieren, der die jeweiligen Merkmale und Preise von verschiedenen Häusern enthält. Anschließend ist der Algorithmus in der Lage, anhand der drei Merkmale Größe, Anzahl der Zimmer und Lage den Preis für ein Haus vorherzusagen.
Häufig verwendete Regressionsalgorithmen sind die lineare Regression, die Support VectorRegression und Regression Trees.
Ein Beispiel für ein Klassifikationsproblem ist ein Spam-Filter, der beinahe in jedem E-Mail-Programm zum Einsatz kommt. Ziel des Klassifikationsalgorithmus ist es dabei E-Mails anhand verschiedener Merkmale entweder dem Posteingang oder dem Spam-Ordner zu zuordnen. Das Training des Algorithmus funktioniert dabei ähnlich wie bei einem Regressionsalgorithmus.
Häufig verwendete Klassifikationsalgorithmen sind die logistische Regression, k-Nearest-Neighbors und Entscheidungsbäume.
Quelle (übersetzt): Medium
Schaden gut. Alles gut.