1 統計学において、多重共線性(共線性ともいう)とは、回帰モデルの1つの特徴変数が他の特徴変数と高い線形相関を持つ現象のことです。
これは、回帰係数が一意に決まらないことを意味し、回帰係数が一意ではなく、他の特徴からの影響を受けているため、モデルの解釈性に悪影響を及ぼします。 モデルを解釈する能力は、データ サイエンティストの重要な部分です。
とにかく、予測することが仕事であれば、共線性があるかどうかはあまり気になりませんが、より解釈しやすいモデルにするためには、非常に高い (~R² > …) 特徴を避けるべきです。
下の図は、私が作業しているデータセットの画像で、データセット内の多くの変数の散布図を示しています。 Limit」と「Rating」が明らかに高い相関性を持っていることに注目してください。 これは多重共線性を示唆しており、両方からのベータ係数を解釈する能力を奪っています。
さて。 各人のバランスを予測するために線形回帰を使用すると、ベータ係数を見ることができます。 残念ながら、多重共線性のため、何が起こっているのか理解するのが難しくなります。
リミットとレーティングはどちらもプラスの係数を持っていますが、レーティングのせいでバランスが高くなっているのか、リミットのせいなのかはわかりません。 私は、ここでの原動力となるインフルエンサーはレーティングだと思います。 ですから、レーティングが残高にどのように影響するかを知るためには、「制限」を削除することをお勧めします。
ここでは、以前のLimit + Ratingよりも、Ratingの方が高い影響力を持っていることがわかります。 これは、数学を理解していない人にとって、より解釈しやすいものです。