일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 설계
- 데이터
- Django
- 코딩테스트 연습
- Len
- pcce 기출문제
- date_format
- 프로그래머스
- 파이썬
- 아이엠어바텐더
- 파이썬 슬라이싱
- 슬라이싱
- python
- Join
- 단어 공부
- where
- count
- 백준
- sql
- map
- List Comprehension
- Python3
- SQL 고득점 Kit
- ORDER BY
- 프로젝트
- GIT
- YOLOv5
- 파이썬 몫
- html
- css
- Today
- Total
nan + nan = 2nan
[통계] 평균(Average)과 중위수(Median) 본문
평균 (Average)
평균이란, 전체의 합을 해당 수의 개수로 나눈 값을 의미한다.
예를 들어, [1, 2, 3, 4, 5, 6] 의 평균을 구한다면 (1+2+3+4+5+6)/6 = 3.5이다.
중위수 (Median)
중위수의 경우, 전체 수를 나열했을 때 가장 중앙에 위치한 값을 의미한다.
전체 수의 개수가 짝수일 경우, 가운데에 위치한 2개의 수를 더한 후 2로 나눈 수가 중위수이다.
반대로 홀수일 경우, 순서대로 나열했을 때 가장 가운데에 위치한 수를 의미한다.
예를 들어, [1, 2, 3, 4, 5, 6]는 짝수 개(6개)로, 중위수는 가운데 두 수를 합하고 2로 나눈 3+4/2 = 3.5가 된다.
반대로 [1, 2, 3, 4, 5]의 중위수는 가장 가운데 위치한 3이 될 것이다.
Result
평균은 보통 실생활에서도 많이 쓰이지만, 중위수는 잘 쓰이지 않아 간혹 어디에 쓸까하는 경우들이 있다.
데이터를 분석할 때, 이상치(Outlier)에 해당하는 값이 큰 경우들이 있다.
보통은 이상치들을 제거하고 데이터 통계를 분석하지만, 이상치를 포함해야 할 경우 평균을 계산하면 실제 평균 값들과는 괴리감이 있는 경우가 있다.
이럴 때, 중위수를 사용하면 이상치에 대한 수치를 반영하기 보다 실제 분포하는 값의 가장 중앙에 위치한 값으로 이상치에 대한 영향을 덜 받을 수 있다.
즉, 왜곡된 데이터 세트에 대한 중앙 값을 확인하고 싶을 땐 극단의 값의 영향을 많이 받는 평균보다는 중위수를 사용하는 것이 좋다.
하지만 무조건 중위수가 좋은 지표는 아니다.
예를 들어, 어떤 병을 치료하기 위해 신약이 개발되었는데 신약을 투여했을 때 완치될 확률이 평균적으로 15%라고 하자. 그럼 100명 중 15명은 적어도 목숨을 구할 수 있다고 해석할 수 있다. 하지만 중위수로 판단한다면, 15명은 이상치로 고려되어 해당 약의 효능이 거의 없다고 판단하고 마냥 비관할지도 모른다.
이처럼 상황에 맞게 적절한 지표를 사용하는 것이 가장 중요하다. 어떤 기준을 가지고 지표를 산출할 것인지 먼저 명확히 한 다음, 다각도로 데이터를 바라보고 편향적인 결과를 도출하지 않기 위한 태도가 가장 중요할 것 같다.
'Statistics' 카테고리의 다른 글
[통계] 1종 오류, 2종 오류 (0) | 2023.05.12 |
---|---|
[통계] 귀무가설과 대립가설 (0) | 2023.05.08 |
[통계] 중심극한정리 (0) | 2023.05.02 |
[통계] MSE / MAE / RMSE (0) | 2022.05.27 |
[통계] 다중공선성(Multicollinearity) (0) | 2022.05.22 |