1 In der Statistik ist Multikollinearität (auch Kollinearität) ein Phänomen, bei dem eine Merkmalsvariable in einem Regressionsmodell mit einer anderen Merkmalsvariablen hoch linear korreliert ist.
Eine Kollinearität ist ein Spezialfall, wenn zwei oder mehr Variablen exakt korreliert sind.
Das bedeutet, dass die Regressionskoeffizienten nicht eindeutig bestimmt sind. Das wiederum schadet der Interpretierbarkeit des Modells, da die Regressionskoeffizienten dann nicht eindeutig sind und Einflüsse von anderen Merkmalen haben. Die Fähigkeit, Modelle zu interpretieren, ist ein wichtiger Teil des Data Scientist-Daseins.
Wenn es Ihnen nur darum geht, Vorhersagen zu treffen, ist es Ihnen eigentlich egal, ob es eine Kollinearität gibt, aber um ein besser interpretierbares Modell zu haben, sollten Sie Features vermeiden, die einen sehr hohen (~R² > .8) in den Features enthalten sind.
Unten sehen Sie ein Bild des Datensatzes, mit dem ich arbeite, das Streudiagramme von vielen der Variablen im Datensatz zeigt. Beachten Sie, wie deutlich Limit und Rating hoch korreliert sind. Dies impliziert eine Multikollinearität und nimmt uns die Möglichkeit, die Beta-Koeffizienten von beiden zu interpretieren.
So nun, wenn wir die lineare Regression zur Vorhersage des Gleichgewichts jeder Person verwenden, können wir uns unsere Beta-Koeffizienten ansehen. Leider wird es wegen der Multikollinearität schwieriger zu verstehen, was da vor sich geht:
Beide, Limit und Rating, haben positive Koeffizienten, aber es ist schwer zu verstehen, ob der Saldo wegen des Ratings höher ist oder ob es am Limit liegt? Ich denke, der treibende Einflussfaktor ist hier das Rating, denn mit einem hohen Rating erreicht man ein höheres Guthaben. Ich würde also das Limit entfernen, um eine echte Vorstellung davon zu bekommen, wie das Rating den Saldo beeinflusst.
Hier sehen Sie nun, dass Rating einen höheren Einfluss hat als vorher Limit + Rating. Dies ist für diejenigen, die die Mathematik nicht verstehen, besser interpretierbar.