1 Em estatística, a multicolinearidade (também a colinearidade) é um fenómeno em que uma variável de característica num modelo de regressão é altamente linearmente correlacionada com outra variável de característica.
Uma colinearidade é um caso especial quando duas ou mais variáveis estão exactamente correlacionadas.
Isto significa que os coeficientes de regressão não são determinados de forma única. Por sua vez, prejudica a interpretabilidade do modelo, uma vez que os coeficientes de regressão não são únicos e têm influências de outras características. A capacidade de interpretar modelos é uma parte chave de ser um Cientista de Dados.
Independentemente disso, se estiver apenas no negócio de prever, não se importa realmente se existe uma colinearidade, mas para ter um modelo mais interpretável, deve evitar características que tenham um valor muito elevado (~R² > .8) estando contida nas características.
Below é uma imagem do conjunto de dados com que estou a trabalhar, os gráficos de dispersão de muitas das variáveis do conjunto de dados. Repare como o Limite e a Classificação estão tão claramente correlacionados. Isto implica uma multicolinearidade e retira-nos a nossa capacidade de interpretar os coeficientes beta de ambos.