nan + nan = 2nan

[통계] 귀무가설과 대립가설 본문

Statistics

[통계] 귀무가설과 대립가설

2nan 2023. 5. 8. 17:38
728x90

데이터를 분석하는데 있어 중요한 부분은 무엇을 검증하기 위하냐가 문제일 것이다.
어떠한 데이터를 분석을 해야 한다면, 결론을 만들어야 할 것이고 그에 따른 가설을 세워야 한다.
그런 다음 해당 가설을 통계적인 방식으로 검증하는데 이를 통계적 가설 검정이라 한다.

통계적인 가설은 어떤 모집단의 모수에 대한 잠정적인 주장으로 일컫는다.
이는 일반적으로 "지구는 계속해서 자전한다"와 같은 큰 이론을 주장하는 것이 아니기 때문에
일정한 형식을 따라야 하는데 이 중에는, 귀무가설과 대립가설이 있다.
어떤 가설을 채택을 할지 확률적으로 따져보고 둘 중 하나를 채택을 해야 한다.


귀무가설과 대립가설


귀무가설

- 모집단의 특성에 대해 옳다고 제안하는 잠정적인 주장이다.

대립가설

- 귀무가설이 거짓이라면 대안적으로 참이 되는 가설이다.

주로 귀무가설은 ~와 차이가 없다, ~와 같다, ~의 효과는 없다 등으로 설정이 되며,
대립가설은 ~와 차이가 있다, ~와 다르다, ~의 효과는 있다 등으로 설정이 된다.

가령, 코로나 백신을 맞은 사람이 코로나에 걸리지 않을 확률에 대한 가설을 세워보자.
이 때의 귀무가설"백신을 맞아도 코로나에 대한 효과는 없다."라고 설정할 수 있다.
그렇다면 대립가설"백신은 코로나에 대한 효과가 있다"로 설정이 가능하다.

이렇게 두 가지 가설을 세웠다면, 수집하거나 갖고 있는 데이터를 바탕으로
귀무가설이 옳은지 혹은 옳다고 볼 수 없는지 판단을 해야 한다.
이를 귀무가설의 유의성 검정이라고 한다.

표본을 추출하고, 그 표본으로부터 얻은 정보를 기초로 하여 귀무가설이 참인지 거짓인지를 판정하게 된다.
하지만, 전체 모집단에 대한 검증이 아닌 표본을 추출하여 검증하기 때문에 어떤 표본을 추출하는지에 따라서
오류가 발생할 가능성이 존재한다고 볼 수 있다.

그렇기 때문에 귀무가설이 참인지 거짓인지 검증하기 위해 수집한 표본을 바탕으로
귀무가설이 참이라고 가정했을 때, 표본으로부터 얻어지는 통계치가 나타날 확률을 함께 계산한다.
이 때, 계산된 확률값을 p값(유의 확률)이라고 한다.
정확히 말하자면, 귀무가설이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률이다.

p-value는 보통 0.05 혹은 0.01 정도로 설정하는 것이 관례이다.
보통 p-value가 작다는 것은 귀무가설이 참이라는 가정 하에 표본을 추출했을 때  
표본 평균이 관측될 확률이 낮다는 것을 뜻한다. 이러한 표본 통게량은 우연히 나타나기 어려운 케이스이기에,
귀무가설을 기각하고 대립가설을 채택하게 된다.

하지만, p-value가 기준 이상이라고 귀무가설이 무조건 맞지도 않고 그 반대의 경우도 마찬가지다.
표본을 추출하여 검증하는 이유는 모집단 전체의 경우를 살펴보기 어렵기 때문이다.
이와 관련한 1종 오류, 2종 오류의 개념은 다음 번에 살펴보도록 한다.

 

 

'Statistics' 카테고리의 다른 글

[통계] 1종 오류, 2종 오류  (0) 2023.05.12
[통계] 중심극한정리  (0) 2023.05.02
[통계] 평균(Average)과 중위수(Median)  (0) 2023.04.16
[통계] MSE / MAE / RMSE  (0) 2022.05.27
[통계] 다중공선성(Multicollinearity)  (0) 2022.05.22
Comments