Was ist ein Decision Tree?
Ein Decision Tree (=Entscheidungsbaum) ist eine Machine Learning Methode, die zur Regression und Klassifikation eingesetzt wird. In der Praxis werden Entscheidungsbäume jedoch hauptsächlich für Klassifikationsprobleme verwendet. Das grundlegende Ziel eines Entscheidungsbaums ist es, eine Zielvariable (entweder kategorisch oder numerisch) anhand von einfachen Entscheidungsregeln, die aus dem Datensatz abgeleitet werden, vorherzusagen. Der Name „Entscheidungsbaum“ leitet sich aus ihrem Erscheinungsbild ab, welches an einen Baum erinnert, der auf dem Kopf steht.
Bei der Verwendung von Entscheidungsbäumen ist die Knotenaufteilung (=node splitting) entscheidend. Eine optimale Knotenaufteilung ist dann erreicht, wenn alle Knoten möglichst “rein“ sind. Knoten werden also immer weiter aufgeteilt, bis die Knoten durch eine weitere Aufteilung nicht mehr „reiner“ werden. Um eine optimale Knotenaufteilung zu gewährleisten, gibt es verschiedene mathematische Modelle wie beispielsweise die „Gini Impurity“.
Im Folgenden wird die Funktionsweise eines Entscheidungsbaums anhand eines einfachen Beispiels erklärt.
In unserem Beispiel soll anhand des Wetters vorhergesagt werden, ob man Joggen gehen sollte oder nicht. Die Entscheidung, ob man Joggen geht oder nicht, ist in diesem Beispiel unsere kategorische Zielvariable. Der oberste Knoten eines Entscheidungsbaums ist der Wurzelknoten (= Root node). Als Frage formuliert lautet die erste Entscheidungsregel, die in unserem Beispiel am Wurzelknoten getroffen wird: Soll es laut Wetterbericht sonnig sein, bewölkt sein oder regnen? Je nachdem, welche Antwort getroffen wird, gelangt man über einen der Zweige (=Branch) zum nächsten Knoten. Soll es sonnig sein oder regnen, gelangt man zu einem sogenannten inneren Knoten (=Internal node), an dem erneut eine Entscheidung getroffen werden muss. Ist es bewölkt, gelangt man direkt zu einem Blattknoten (=Leaf node). Dieser gibt uns den Wert für unsere Zielvariable aus, also in unserem Beispiel „Ja“ oder „Nein“. Für einen einfachen Entscheidungsbaum wie in unserem Beispiel kann eine Entscheidung auch verbal ausgedrückt werden: Wenn die Wettervorhersage sonnig und die vorhergesagte Luftfeuchtigkeit hoch ist, sollte man nicht joggen gehen.
Wie bei jedem Machine Learning Algorithmus hat der Einsatz von Entscheidungsbäumen Vor- und Nachteile. Einer der größten Vorteile ist, dass sie im Gegensatz zu anderen Machine Learning Algorithmen einfach zu verstehen, interpretieren und visualisieren sind. Einer der größten Nachteile von Entscheidungsbäumen ist ihre Tendenz zum Overfitting.
Einige populäre Entscheidungsbaum Algorithmen sind CART, ID3 und C4.5.
#RoadToRevolution #MachineLearning #ai #decisiontree
Quellen (übersetzt): Towards Data Science und R2D3
Schaden gut. Alles gut.