Was ist der Bias-Variance-Tradeoff?
Der Bias-Variance-Tradeoff ist immer dann von Bedeutung, wennes um die Beurteilung der Güte von Vorhersagemodellen geht.
Starten wir mit den Grundlagen: Sowohl Verzerrung (=Bias) als auch Varianz (=Variance) sind Vorhersagefehler.
Die Verzerrung eines Modells ist der Unterschied zwischen der durchschnittlichen Vorhersage unseres Modells und dem richtigen Wert, den wir versuchen vorherzusagen. Ein Modell mit hoher Verzerrung beachtet die Trainingsdaten zu wenig und vereinfacht das Modell zu sehr. Dadurch kommt es zu hohen Fehlerraten bei Trainings- und Testdaten.
Die Varianz eines Modells gibt die Streuung der Modellvorhersage für einen bestimmten Wert an. Ein Modell mit hoher Varianz orientiert sich stark an den Trainingsdaten und kann somit nicht gut auf neue unbekannte Daten reagieren. Dadurch ist die Performance des Modells bei der Vorhersage der Trainingsdaten sehr gut, aber bei den Testdaten sind die Fehlerraten sehr hoch.
Der Bias-Variance-Tradeoff besteht darin, dass man Verzerrung und Varianz nicht gleichzeitig minimieren kann. Wenn unser Modell zu simpel ist, führt das zu einer hohen Verzerrung und einer niedrigen Varianz. Ist unser Modell dagegen zu komplex, führt das zu einer niedrigen Verzerrung und einer hohen Varianz. Dementsprechend ist es wichtig zu verstehen, was Verzerrung und Varianz für die Güte eines Modells bedeuten und ein Gleichgewicht zu finden.
Die Wirkungsweisen von Verzerrung und Varianz und deren Zusammenhang werden häufig mithilfe eines sogenannten Bulls-Eye Diagramms visualisiert. Bei dem Diagrammstellt die Mitte der Zielscheibe ein Modell dar, welches die korrekten Werte perfekt vorhersagt.
Quelle (übersetzt): Towards Data Science
Schaden gut. Alles gut.