1 En estadística, la multicolinealidad (también colinealidad) es un fenómeno en el que una variable de característica en un modelo de regresión está altamente correlacionada linealmente con otra variable de característica.

Una colinealidad es un caso especial cuando dos o más variables están exactamente correlacionadas.

Esto significa que los coeficientes de regresión no están determinados de forma única. A su vez perjudica la interpretabilidad del modelo ya que entonces los coeficientes de regresión no son únicos y tienen influencias de otras características. La capacidad de interpretar los modelos es una parte clave de ser un Científico de Datos.

Independientemente, si usted sólo está en el negocio de la predicción, realmente no le importa si hay una colinealidad, pero para tener un modelo más interpretable, debe evitar las características que tienen una muy alta (~R² > .8) que están contenidas en las características.

Abajo hay una imagen del conjunto de datos con el que estoy trabajando, la muestra gráficos de dispersión de muchas de las variables en el conjunto de datos. Observe cómo el Límite y la Calificación están claramente correlacionados. Esto implica una multicolinealidad y nos quita la capacidad de interpretar los coeficientes beta de ambas.

Matriz de dispersión de las variables

Ahora bien, si utilizamos la regresión lineal para predecir el saldo de cada persona, podemos ver nuestros coeficientes beta. Desgraciadamente, debido a la multicolinealidad, se hace más difícil entender lo que está pasando:

¿Es el Límite o la Valoración lo que impulsa los resultados?

Tanto el límite como el rating tienen coeficientes positivos, pero es difícil entender si el balance es mayor por el rating o es por el límite? Creo que el influenciador aquí es el rating, porque con un rating alto, se consigue un crédito mayor. Así que yo quitaría el Límite para tener una idea real de cómo afecta el rating al saldo.

Nota que la Calificación es mayor

Aquí puedes ver que la Calificación tiene un mayor impacto que antes el Límite + Calificación. Esto es más interpretable para los que no entienden de matemáticas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *