1 In statistica, la multicollinearità (anche collinearità) è un fenomeno in cui una variabile caratteristica in un modello di regressione è altamente correlata linearmente con un’altra variabile caratteristica.
Una collinearità è un caso speciale quando due o più variabili sono esattamente correlate.
Questo significa che i coefficienti di regressione non sono determinati in modo unico. Questo significa che i coefficienti di regressione non sono determinati in modo univoco e hanno influenze da altre caratteristiche. La capacità di interpretare i modelli è una parte fondamentale dell’essere un Data Scientist.
In ogni caso, se si è solo nel business della previsione, non ci si preoccupa veramente se c’è una collinearità, ma per avere un modello più interpretabile, si dovrebbe evitare che le caratteristiche che hanno un molto alto (~R² > .8) che sono contenute nelle caratteristiche.
Di seguito è riportata un’immagine del set di dati con cui sto lavorando, che mostra i diagrammi di dispersione di molte delle variabili nel set di dati. Notate come Limite e Valutazione sono chiaramente altamente correlati. Questo implica una multicollinearità e ci toglie la possibilità di interpretare i coefficienti beta di entrambe.
Quindi ora, se usiamo la regressione lineare per prevedere il bilancio di ogni persona, possiamo guardare i nostri coefficienti beta. Purtroppo a causa della multicollinearità diventa più difficile capire cosa sta succedendo:
Sia il limite che il rating hanno coefficienti positivi, ma è difficile capire se il bilancio è più alto a causa del rating o è a causa del limite? Penso che l’influenzatore trainante qui sia il rating, perché con un rating alto, si ottiene un credito più alto. Quindi toglierei Limite per avere un’idea reale di come il rating influenzi il saldo.
Qui si può ora vedere che il Rating ha un impatto maggiore rispetto a Limite + Rating prima. Questo è più interpretabile per coloro che non capiscono la matematica.