1 In de statistiek is multicollineariteit (ook collineariteit) een verschijnsel waarbij een kenmerkvariabele in een regressiemodel sterk lineair gecorreleerd is met een andere kenmerkvariabele.
Collineariteit is een speciaal geval wanneer twee of meer variabelen exact gecorreleerd zijn.
Dit betekent dat de regressiecoëfficiënten niet uniek bepaald zijn. Op zijn beurt schaadt dit de interpreteerbaarheid van het model, omdat de regressiecoëfficiënten dan niet uniek zijn en invloeden van andere kenmerken vertonen. Het vermogen om modellen te interpreteren is een belangrijk onderdeel van Data Scientist zijn.
Hoe dan ook, als je alleen maar bezig bent met voorspellen, maakt het je niet zoveel uit of er collineariteit is, maar om een beter interpreteerbaar model te hebben, moet je voorkomen dat features met een zeer hoge (~R² > .8) in de features zitten.
Hieronder zie je een afbeelding van de dataset waar ik mee werk, met scatter plots van veel van de variabelen in de dataset. Merk op hoe Limiet en Waardering zo duidelijk sterk gecorreleerd zijn. Dit impliceert een multicollineariteit en belemmert ons vermogen om de bètacoëfficiënten van beide te interpreteren.
Dus nu, als we lineaire regressie gebruiken om het saldo van elke persoon te voorspellen, kunnen we naar onze bètacoëfficiënten kijken. Helaas wordt het door de multicollineariteit moeilijker te begrijpen wat er aan de hand is:
Beide limieten en ratings hebben positieve coëfficiënten, maar het is moeilijk te begrijpen of de balans hoger is vanwege de rating of vanwege de limiet? Ik denk dat de drijvende kracht hier de rating is, want met een hoge rating krijg je een hoger tegoed. Dus ik zou de limiet verwijderen om een goed beeld te krijgen van de invloed van de rating op het saldo.
Hier kunt u nu zien dat Rating een grotere impact heeft dan Limit + Rating voorheen. Dit is beter te interpreteren voor degenen die de wiskunde niet begrijpen.