1 En estadística, la multicolinealidad (también colinealidad) es un fenómeno en el que una variable de característica en un modelo de regresión está altamente correlacionada linealmente con otra variable de característica.
Una colinealidad es un caso especial cuando dos o más variables están exactamente correlacionadas.
Esto significa que los coeficientes de regresión no están determinados de forma única. A su vez perjudica la interpretabilidad del modelo ya que entonces los coeficientes de regresión no son únicos y tienen influencias de otras características. La capacidad de interpretar los modelos es una parte clave de ser un Científico de Datos.
Independientemente, si usted sólo está en el negocio de la predicción, realmente no le importa si hay una colinealidad, pero para tener un modelo más interpretable, debe evitar las características que tienen una muy alta (~R² > .8) que están contenidas en las características.
Abajo hay una imagen del conjunto de datos con el que estoy trabajando, la muestra gráficos de dispersión de muchas de las variables en el conjunto de datos. Observe cómo el Límite y la Calificación están claramente correlacionados. Esto implica una multicolinealidad y nos quita la capacidad de interpretar los coeficientes beta de ambas.
Ahora bien, si utilizamos la regresión lineal para predecir el saldo de cada persona, podemos ver nuestros coeficientes beta. Desgraciadamente, debido a la multicolinealidad, se hace más difícil entender lo que está pasando: