1 Em estatística, a multicolinearidade (também a colinearidade) é um fenómeno em que uma variável de característica num modelo de regressão é altamente linearmente correlacionada com outra variável de característica.

Uma colinearidade é um caso especial quando duas ou mais variáveis estão exactamente correlacionadas.

Isto significa que os coeficientes de regressão não são determinados de forma única. Por sua vez, prejudica a interpretabilidade do modelo, uma vez que os coeficientes de regressão não são únicos e têm influências de outras características. A capacidade de interpretar modelos é uma parte chave de ser um Cientista de Dados.

Independentemente disso, se estiver apenas no negócio de prever, não se importa realmente se existe uma colinearidade, mas para ter um modelo mais interpretável, deve evitar características que tenham um valor muito elevado (~R² > .8) estando contida nas características.

Below é uma imagem do conjunto de dados com que estou a trabalhar, os gráficos de dispersão de muitas das variáveis do conjunto de dados. Repare como o Limite e a Classificação estão tão claramente correlacionados. Isto implica uma multicolinearidade e retira-nos a nossa capacidade de interpretar os coeficientes beta de ambos.

Matriz de dispersão de variáveis

Então agora, se usarmos a regressão linear para prever o equilíbrio de cada pessoa, podemos olhar para os nossos coeficientes beta. Infelizmente, devido à multicolinearidade, torna-se mais difícil compreender o que se passa:

>/div>>>>fcaption>is Limit or Rating driving the results?

Ambos limite e classificação têm coeficientes positivos, mas é difícil compreender se o balanço é mais elevado por causa da classificação ou é por causa do limite? Penso que o influenciador de condução aqui é a classificação, porque com uma classificação elevada, consegue-se um crédito mais elevado. Assim, eu eliminaria o limite para ter uma ideia real de como a classificação afecta o equilíbrio.

Notice Rating is higher

Aqui pode agora ver que o Rating tem um impacto maior do que o Limit + Rating tinha antes. Isto é mais interpretável para aqueles que não compreendem a matemática.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *