1 W statystyce, wieloliniowość (również współliniowość) jest zjawiskiem, w którym jedna zmienna cecha w modelu regresji jest silnie liniowo skorelowana z inną zmienną cechą.
Współliniowość jest szczególnym przypadkiem, gdy dwie lub więcej zmiennych jest dokładnie skorelowanych.
To oznacza, że współczynniki regresji nie są jednoznacznie określone. To z kolei wpływa negatywnie na interpretowalność modelu, ponieważ wtedy współczynniki regresji nie są unikalne i mają wpływy z innych cech. Zdolność do interpretowania modeli jest kluczową częścią bycia Data Scientist.
Bez względu na to, jeśli jesteś po prostu w biznesie przewidywania, tak naprawdę nie obchodzi cię, czy istnieje współliniowość, ale aby mieć bardziej interpretowalny model, powinieneś unikać cech, które mają bardzo wysoki (~R² > .8) zawarte w cechach.
Poniżej znajduje się obraz zestawu danych, z którym pracuję, pokazuje on wykresy rozrzutu wielu zmiennych w zestawie danych. Zauważ, jak Limit i Ocena są tak wyraźnie wysoko skorelowane. Sugeruje to wieloliniowość i odbiera nam możliwość interpretacji współczynników beta z obu.
Więc teraz, jeśli użyjemy regresji liniowej do przewidywania wagi każdej osoby, możemy spojrzeć na nasze współczynniki beta. Niestety z powodu wieloliniowości trudniej jest zrozumieć, co się dzieje:
Zarówno limit, jak i rating mają dodatnie współczynniki, ale trudno zrozumieć, czy saldo jest wyższe z powodu ratingu, czy jest to spowodowane limitem? Myślę, że czynnikiem wpływającym jest tutaj rating, ponieważ przy wysokim ratingu uzyskuje się wyższy kredyt. Więc usunąłbym Limit, aby uzyskać prawdziwy obraz tego, jak ocena wpływa na saldo.
Tutaj można teraz zobaczyć, że Rating ma większy wpływ niż wcześniej Limit + Rating. Jest to bardziej interpretowalne dla tych, którzy nie rozumieją matematyki.