Ensemble Learning ist ein Teilgebiet des Machine Learning, bei dem mehrere Modelle (sogenannte schwache Lerner) zur Lösung desselben Problems trainiert und kombiniert werden, um bessere Ergebnisse zu erzielen. Die Logik beim Ensemble Learning folgt dem Phänomen „der Weisheit der Vielen“, welches beschreibt, dass die aggregierten Entscheidung einer Gruppe von Individuen der Entscheidung eines einzelnen Individuums überlegen ist. Aus diesem Phänomen ist der Grundgedanke abgeleitet, dass durch die Kombination mehrerer schwacher Lerner genauere und robustere Modelle entstehen. Schwache Lerner sind Modelle, die aufgrund von einer hohen Verzerrung oder einer großen Varianz alleine meistens schlecht abschneiden. Im Ensemble Learning bilden sie die Bausteine für die Entwicklung komplexerer Modelle.
Ensemble Learning bietet eine Möglichkeit, die typischen Herausforderungen beim Trainieren eines einzelnen Modells (z. B. hohe Varianz, niedrige Genauigkeit oder Verzerrung) zu überwinden.
Es gibt verschiede Ensemble Learning Methoden. Zu den Bekanntesten zählen Bagging, Boosting und Stacking.
Bei der Bootstrap Aggregation (Bagging) werden verschiedene homogene, schwache Lerner mit hoher Varianz in der Vorhersage kombiniert. Dabei werden parallel verschiedene schwache Lerner mit einem anderen Teil des Trainingsdatensatzes trainiert. Die Vorhersagen der einzelnen schwachen Lerner werden anschließend durch die Bildung eines Durchschnitts oder durch ein Mehrheitsvotum kombiniert.
Beim Boosting werden verschiedene homogene, schwache Lerner sequenziell (also nacheinander) trainiert. Die Modelle werden dabei schrittweise angepasst, sodass der Zustand eines Modells in einem bestimmten Schritt von den Modellen in den vorherigen Schritten abhängt.
Beim Stacking werden häufig verschiedene heterogene, schwache Lerner kombiniert. Ein sogenanntes Meta-Modell wird anschließend auf Basis der Vorhersagen der einzelnen schwachen Lerner trainiert.
Vereinfacht dargestellt, zielt Bagging darauf ab, ein Modell mit einer geringeren Varianz als seine einzelnen Komponenten (schwache Lerner) zu erhalten, während Boosting und Stacking zum Ziel haben, Modelle zu erzeugen, die weniger verzerrt sind als ihre Komponenten (schwache Lerner).
Zusammenfassend stellt Ensemble Learning eine vielversprechende Erweiterung der klassischen Machine Learning Methoden mit viel Potenzial dar.
Quelle (übersetzt): Towards Data Science
Schaden gut. Alles gut.