nan + nan = 2nan

[DATAHERO 3기] 2주차 미션 (회귀분석) 본문

Statistics/Machine Learning

[DATAHERO 3기] 2주차 미션 (회귀분석)

2nan 2022. 7. 26. 21:06
728x90

2주차 미션은 회귀 분석에 관한 내용이었다.

내가 아는 회귀 분석은 독립변수와 종속변수 간 관계를 나타내기 위한 하나의 기법 정도로 이해하고 있었다.

독립변수, 종속변수 하니 생각나는 일이 서울시 아파트 가격 분석을 할 때, 다중공선성에 위배되는 변수들을 제거하는 일이 있었다.

이 때, 독립변수 간 상관관계가 일정 기준 이상 높은 변수들을 제거했어야 하는데, 나는 모르고 종속변수까지 고려를 해서 많은 변수들을 제거했었다.

그 결과가 나중에 지나고 보니 프로젝트 결과에도 어느 정도 영향을 미치지 않았을까 생각이 들면서,

독립변수와 종속변수에 대한 개념이 제대로 잡혀 있지 않았기 때문에 실수를 범했지 않았나 싶다.

그것 때문에라도 잊지 않으려고 더욱 노력해야겠다.

 

회귀분석 (Regression Analysis)

 독립변인종속변인에 영향을 미치는지 알아보고자 할 때 실시하는 분석방법. 단순 선형 회귀분석은 독립변수 X(설명변수)에 대하여 종속변수 Y(반응변수)들 사이의 관계수학적 모형을 이용하여 규명하는 것

 

자세한 내용은 가까운 시일 내 따로 정리해야겠다.. 공부할게 너무 많다..

 

 

이번 데이터는 보험 관련 고객 데이터를 활용했다.

 

주요 변수


Age: 나이
Sex: 성별
BMI: 신체 비만 지수
Children: 자녀수
Smoker: 흡연여부
Region: 보험 청구인이 사는 지역
Medical.Cost: 의료비 청구액
Insurance.Claim: 최근 6개월 이내 의료비 청구 여부

 


 

1-1. 여성을 대상(상단 필터 사용)으로 했을 때 의료비를 가장 잘 설명할 수 있는 두 변수의 조합은 무엇이고 설명력은 어느 정도인가요?

 

R² 계수 : 0.685
흡연 여부 / 연령대 조합

 

1-2. 나이가 50세 이하인 사람으로 분석 대상을 필터링 한 후 의료비에 대해 요인 분석을 수행한 경우, 독립변수 BMI의 결정계수는 얼마 인가? 결정계수가 높다는 건 어떤 의미인지 일상의 언어로 설명해주세요.

 

R² 계수 : 0.698

결정 계수가 높다는 것은 해당 통계 모델로 대상을 얼마나 잘 설명할 수 있는가를 의미. 즉 50세 이하 대상 중 의료비를 설명하는데 있어 BMI 지표가 2번째로 잘 설명할 수 있는 지표라는 의미

 

1-3. “1-2”에서 나온 요인 중 가장 설명력이 높은 변수의 조합과 해당 변수로 표현된 차트에 대한 해석(설명)을 해주세요. 아래 그림처럼 “변수 순서 바꾸기” 아이콘을 누른 후 바뀐 차트에 대한 해석(설명)을 해주세요.

 

R² 계수 : 0.709
흡연 여부 / 연령대 차트

연령대가 높아질수록, 신체 노화 현상으로 인해 자연히 의료비용은 높아질 수 밖에 없다. 단, 흡연자는 비흡연자보다 훨씬 많은 평균 의료비용을 지불하고 있다. 다만, 38 ~ 43세 구간에서는 비교적 의료 비용이 적게 나타나는데 평균적으로 요즘에는 해당 나이 대에 결혼, 출산 등이 주로 이루어져 흡연자들도 건강에 신경을 조금 쓰지 않았나 하는 짧은 추론을 해볼 수 있었다. 

 

 

1-4. “1-2”에서 파생변수(_BIN, _PERCENTILE)을 사용하지 않고 요인분석을 수행해 보세요. (아래 그림 참고) BMI_BIN(파생변수)의 결정계수가 BMI보다 높게 나온 이유는 무엇인가요?

 

BMI_BIN의 결정 계수(설명력)이 높은 이유는, BMI가 추세선과 데이터 간 연관도가 떨어지고, 파생 변수를 사용하여 범주형으로 분석 시, 설명력이 더 높은 결과를 얻기 때문 

 

2-1. 전체 데이터를 가지고 의료비에 대해 분석한 결과의 세번째 요인은 무엇이고, 어떤 조건에서 의료비가 가장 높았나요? 차트를 설명해주세요.

 

R² 계수 : 0.668
흡연 / 일일 걸음 수

일일 걸음 수 3700 ~ 4402 사이 구간이 평균 의료 비용이 가장 높으며, 의료 비용 평균인 13,270보다 대략 21,026만큼 높다 

 

2-2. “2-1” 분석 결과의 여섯번 째 요인에서 의료비의 총합에서 차지하는 비중이 가장 컸던 변수의 조합은 무엇인가요?

 

R² 계수 : 0.172
연령대 / 보험금 청구

 

 


 

** 해당 데이터와 시각화 툴(HeartCount)은 DataHero 3기에 참여해 제공 받아 사용했습니다. 

Comments