nan + nan = 2nan

[통계] 다중공선성(Multicollinearity) 본문

Statistics

[통계] 다중공선성(Multicollinearity)

2nan 2022. 5. 22. 14:41
728x90

 

국내 부동산 가격 예측 프로젝트를 진행하면서, 상관관계 분석을 한 바 있다.

당시에는 이게 정확히 무슨 의미인지도 모르고, 독립변수 간에만 적용되는지도 모르고 그저

 

상관관계 분석을 통해서 다중공선성에 해당하는 변수들을 제거한다

 

라는 말을 강의 때 들었던 기억 때문에 이를 제거해야 한다고만 생각했다.

 

그리고 이후에 포트폴리오를 만들고, 금융사 면접을 한 번 봤을 때 이에 대한 질문이 나왔을 때 제대로 이해하고 있지 못 했다.

그래서 이에 대해 이론적으로 깊게 파고들지는 못 해도 이것이 무엇을 의미하는지, 왜 하는지에 대해 다시 정확하게 정의를 정립하고 가야겠다.

 

다중공선성은 회귀분석의 전제 가정인 독립변수 간 높은 상관관계가 나타나 조건을 위배하는 경우를 의미한다.

 

 

즉, Target 값을 제외한 나머지 변수들 간 높은 상관관계가 나타나면 안 되는 것이다. 

 

프로젝트 당시에 너무 빠르고 정신 없게 지나가서 이에 대해서 정확히 어떤 기준을 가지고 제거 했는지 기억이 나지는 않지만, 임의적으로 0.8이라는 기준을 정하고 그 이상에 해당하는 기준과 0.1 이하의 낮은 상관관계를 가지는 변수들을 제거했던 기억이 난다.

문제는, 독립변수(X) 간의 관계만 고려했어야 하는데, 왠지 독립변수(X) - 종속변수(y)도 포함해서 제거했던 것 같았다.

이후에 상관 관계 분석을 할 때는 이 부분들을 고려해야 겠다.

 

추가적으로, 면접 때 질문이 나왔었던 상관 관계가 무엇인지 아느냐? 에 대한 답을 기록하려고 한다.

막상 면접 때 질문을 받으니, 머릿 속이 하얘지면서 두 변수 간 상관도를 분석... 하면서 어버버 했던 기억이 크다.

 

상관관계는 2개 변수가 선형 관계가 있는(상수 비율에서 함께 변경됨을 의미함) 범위를 표현하는 통계적 측도이다. 원인과 결과에 관한 표현 없이 간단한 관계를 설명하는 일반적인 도구이다.

 

즉, 2개의 변수가 선형 관계에 있어야 하고 인과 관계에 대한 표현 없이 간단한 관계만을 설명하는 도구로 정의할 수 있을 것 같다.

그렇다면, 이러한 두 변수 간 상관 관계를 분석하면 양의 상관관계, 음의 상관관계, 상관 없음(0)의 3가지 경우가 도출되는데 이는 무엇을 의미할까?

 

양의 상관관계 x 값이 증가하면 y 값도 증가한다
음의 상관관계 x 값이 증가하면 y 값은 감소한다
즉, 상관 관계가 0에 가까울수록 선형 관계가 약해지고, ±1에 가까울수록 선형 관계가 강해진다.

 

상관관계는 분석하는 2개의 변수 이외의 다른 변수의 존재 및 효과를 확인할 수 없다. 또한 이를 통해 인과 관계를 확인할 수는 없다. 그리고 곡선 관계에 있다면 이를 정확히 설명할 수가 없다.

이를 정확히 파악하기 위해서는 통계학적으로 접근해서 이론적으로 파고들어야 하겠지만, 아직은 그럴 Level은 아닌 것 같다. 조금씩 하나 하나 해보면서 궁금한 부분은 찾아보고, 어느 정도 stack이 쌓이면 더 깊게 파고 들어서 이를 파악해봐야겠다.

'Statistics' 카테고리의 다른 글

[통계] 1종 오류, 2종 오류  (0) 2023.05.12
[통계] 귀무가설과 대립가설  (0) 2023.05.08
[통계] 중심극한정리  (0) 2023.05.02
[통계] 평균(Average)과 중위수(Median)  (0) 2023.04.16
[통계] MSE / MAE / RMSE  (0) 2022.05.27
Comments