1 En statistique, la multicollinéarité (également colinéarité) est un phénomène dans lequel une variable caractéristique dans un modèle de régression est fortement corrélée linéairement avec une autre variable caractéristique.
Une colinéarité est un cas particulier lorsque deux variables ou plus sont exactement corrélées.
Cela signifie que les coefficients de régression ne sont pas déterminés de manière unique. En retour, cela nuit à l’interprétabilité du modèle car alors les coefficients de régression ne sont pas uniques et ont des influences d’autres caractéristiques. La capacité à interpréter les modèles est une partie essentielle du métier de Data Scientist.
Malgré tout, si vous êtes juste dans le domaine de la prédiction, vous ne vous souciez pas vraiment de l’existence d’une colinéarité, mais pour avoir un modèle plus interprétable, vous devriez éviter les caractéristiques qui ont une très grande (~R² > .8) étant contenu dans les caractéristiques.
Vous trouverez ci-dessous une image de l’ensemble de données avec lequel je travaille, le montre des diagrammes de dispersion de plusieurs des variables de l’ensemble de données. Remarquez comment la limite et le classement sont si clairement fortement corrélés. Cela implique une multicollinéarité et enlève notre capacité à interpréter les coefficients bêta des deux.
Alors maintenant, si nous utilisons la régression linéaire pour prédire la balance de chaque personne, nous pouvons regarder nos coefficients bêta. Malheureusement à cause de la multicollinéarité, il devient plus difficile de comprendre ce qui se passe :
La limite et le classement ont tous deux des coefficients positifs, mais il est difficile de comprendre si l’équilibre est plus élevé à cause du classement ou si c’est à cause de la limite ? Je pense que l’influence motrice ici est la notation, car avec une notation élevée, vous obtenez un crédit plus élevé. Je supprimerais donc la limite pour avoir une idée réelle de la façon dont la cote affecte le solde.