nan + nan = 2nan

[통계] 중심극한정리 본문

Statistics

[통계] 중심극한정리

2nan 2023. 5. 2. 16:00
728x90

중심극한정리란?


동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다.

쉽게 말해서, 표본이 되는 모집단의 개수가 많아질수록 일정한 형태에 가까워질 수밖에 없다는 것이다.

예를 들어, 마라톤 참가를 위해 선수들이 버스로 대거 이동하고 있다고 하자. 같은 날, 비슷한 지역에는 씨름 대회가 열렸다고 가정한다.
근데 한 버스에서 사고가 났는데, 버스가 워낙 많아 마라톤 선수들이 탑승한 버스가 무엇인지 잘 모르는 상황이다.
버스에 가서 직접 선수들을 살펴볼 수 밖에 없는 상황인데, 주변에 사고가 난 버스가 있어 확인을 하게 되었다.
당시 마라톤에 참가하는 선수들의 평균 몸무게는 70kg대이며 표준 편차는 7kg였고 정규 분포 형태를 띈다는 정보를 알고 있다.
해당 버스에 탑승한 선수들은 대략적으로 봐도 100kg대에 육박하는 사람들로 구성되어 있었다.
질문 없이 유추해보더라도, 이 사람들이 마라톤에 참가하기 위한 선수들이 아님을 알 수 있다.
물론,  우연하게도 선수들 간(표본 간) 체중이 많이 나가는 선수들이 한 버스에 모여탔을수도 있을 것이다.
하지만 평균이 70kg이며 표준 편차가 7kg라면, 보통 63kg ~ 77kg 이내 사람들이 대부분일 것이기 때문에 해당 선수들이 마라톤 선수들이 아닐 확률이 매우 높을 것으로 추측할 수 있다.

중심극한정리에 따르면, 표본 평균들은 모집단 평균을 중심으로 정규 분포의 형태로 나타날 것으로 예상한다.
즉, 선수들이 탑승한 버스 내 선수들의 몸무게는 전체 모집단의 평균인 70kg에 가깝게 정규 분포 형태로 나타난다는 의미와 동일하다.

정규 분포에서는 보통 관측값의 68%가 1표준편차 이내에 위치하고 95%는 2표준편차, 99%는 3표준편차 이내에 나타난다.

즉, 우리가 확인한 버스의 선수들이 마라톤 선수가 아닐 확률은 99%(70kg + 3×7kg) 이상일 것이라고 예측할 수 있다.

정리하자면..


중심극한정리는 모집단의 분포 형태와 상관 없이, 큰 표본들의 표본 평균의 분포가 정규 분포로 수렴하기 때문에 이를 이용하여 확률적인 판단을 할 수 있는 근거를 마련해준다.

항상 이것이 진리는 아니지만, 수학적인 확률로 추정하여 판단할 수 있는 근거가 될 수 있다는 점이 중요할 것 같다.

Comments