일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- ORDER BY
- YOLOv5
- Django
- 프로젝트
- html
- Python3
- 데이터
- 파이썬
- 단어 공부
- 코딩테스트 연습
- where
- 설계
- map
- 파이썬 몫
- List Comprehension
- SQL 고득점 Kit
- 아이엠어바텐더
- css
- 슬라이싱
- python
- count
- GIT
- 파이썬 슬라이싱
- 백준
- pcce 기출문제
- sql
- Join
- 프로그래머스
- date_format
- Len
- Today
- Total
목록Statistics (18)
nan + nan = 2nan
지난 번, 가설 검정의 귀무가설과 대립가설에 대해 살펴보았다. * 관련 글 - https://2nan.tistory.com/115 [통계] 귀무가설과 대립가설 데이터를 분석하는데 있어 중요한 부분은 무엇을 검증하기 위하냐가 문제일 것이다. 어떠한 데이터를 분석을 해야 한다면, 결론을 만들어야 할 것이고 그에 따른 가설을 세워야 한다. 그런 다음 2nan.tistory.com 이번엔 해당 가설들을 채택하는데 있어 고려하게 되는 오류들에 대해 살펴본다. 1종 오류와 2종 오류 지난 번 귀무가설과 대립가설을 설명할 때 들었던 예시를 다시 살펴보자. 귀무가설은 "백신을 맞아도 코로나에 대한 면역 효과는 없다." 대립가설은 "백신을 맞은 사람은 코로나에 대한 면역 효과가 있다." 이 때, 총 4가지의 상황이 발생..
데이터를 분석하는데 있어 중요한 부분은 무엇을 검증하기 위하냐가 문제일 것이다. 어떠한 데이터를 분석을 해야 한다면, 결론을 만들어야 할 것이고 그에 따른 가설을 세워야 한다. 그런 다음 해당 가설을 통계적인 방식으로 검증하는데 이를 통계적 가설 검정이라 한다. 통계적인 가설은 어떤 모집단의 모수에 대한 잠정적인 주장으로 일컫는다. 이는 일반적으로 "지구는 계속해서 자전한다"와 같은 큰 이론을 주장하는 것이 아니기 때문에 일정한 형식을 따라야 하는데 이 중에는, 귀무가설과 대립가설이 있다. 어떤 가설을 채택을 할지 확률적으로 따져보고 둘 중 하나를 채택을 해야 한다. 귀무가설과 대립가설 귀무가설 - 모집단의 특성에 대해 옳다고 제안하는 잠정적인 주장이다. 대립가설 - 귀무가설이 거짓이라면 대안적으로 참이..
중심극한정리란?동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다. 쉽게 말해서, 표본이 되는 모집단의 개수가 많아질수록 일정한 형태에 가까워질 수밖에 없다는 것이다. 예를 들어, 마라톤 참가를 위해 선수들이 버스로 대거 이동하고 있다고 하자. 같은 날, 비슷한 지역에는 씨름 대회가 열렸다고 가정한다. 근데 한 버스에서 사고가 났는데, 버스가 워낙 많아 마라톤 선수들이 탑승한 버스가 무엇인지 잘 모르는 상황이다. 버스에 가서 직접 선수들을 살펴볼 수 밖에 없는 상황인데, 주변에 사고가 난 버스가 있어 확인을 하게 되었다. 당시 마라톤에 참가하는 선수들의 평균 몸무게는 70kg대이며 표준 편차는 7kg였고 정규 분포 형태를 띈다는 정보를 알고 있..
평균 (Average)평균이란, 전체의 합을 해당 수의 개수로 나눈 값을 의미한다. 예를 들어, [1, 2, 3, 4, 5, 6] 의 평균을 구한다면 (1+2+3+4+5+6)/6 = 3.5이다. 중위수 (Median)중위수의 경우, 전체 수를 나열했을 때 가장 중앙에 위치한 값을 의미한다. 전체 수의 개수가 짝수일 경우, 가운데에 위치한 2개의 수를 더한 후 2로 나눈 수가 중위수이다. 반대로 홀수일 경우, 순서대로 나열했을 때 가장 가운데에 위치한 수를 의미한다. 예를 들어, [1, 2, 3, 4, 5, 6]는 짝수 개(6개)로, 중위수는 가운데 두 수를 합하고 2로 나눈 3+4/2 = 3.5가 된다. 반대로 [1, 2, 3, 4, 5]의 중위수는 가장 가운데 위치한 3이 될 것이다. Result 평균..
* 해당 글은 위키독스의 딥러닝을 이용한 자연어 처리 입문을 참고하여 작성하였습니다. https://wikidocs.net/book/2155 딥 러닝을 이용한 자연어 처리 입문 많은 분들의 피드백으로 수년간 보완되어 온 딥 러닝 자연어 처리 무료 eBook입니다. 기본적인 텍스트 전처리부터 BERT와 같은 PLM의 다양한 다운스트림 태스크를 ... wikidocs.net 02) 정제 및 정규화 코퍼스에서 용도에 맞게 토큰을 분류하는 작업을 토큰화라고 하며, 토큰화 작업 전, 후에는 데이터를 용도에 맞게 정제 및 정규화하는 일을 항상 함께 진행함. 정제 : 갖고 있는 코퍼스로부터 노이즈 데이터 제거 정규화 : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 규칙에 기반한 표기가 다른 단어들의..
* 해당 글은 위키독스의 딥러닝을 이용한 자연어 처리 입문을 참고하여 작성하였습니다. https://wikidocs.net/book/2155 딥 러닝을 이용한 자연어 처리 입문 많은 분들의 피드백으로 수년간 보완되어 온 딥 러닝 자연어 처리 무료 eBook입니다. 기본적인 텍스트 전처리부터 BERT와 같은 PLM의 다양한 다운스트림 태스크를 ... wikidocs.net 01) 토큰화 NLP에서 크롤링으로 얻은 Corpus 데이터가 필요에 맞게 전처리 되지 않은 상태라면, 용도에 맞게 토큰화 / 정제 / 정규화가 필요 단어 토큰화 (Word Tokenization) 토큰이란 보통 의미있는 단위 토큰의 기준을 단어로 설정 시, 단어 토큰화라고 명명 ex) 구두점 및 특수기호 제외하는 간단한 토큰화 작업출력..
2주차 미션은 회귀 분석에 관한 내용이었다. 내가 아는 회귀 분석은 독립변수와 종속변수 간 관계를 나타내기 위한 하나의 기법 정도로 이해하고 있었다. 독립변수, 종속변수 하니 생각나는 일이 서울시 아파트 가격 분석을 할 때, 다중공선성에 위배되는 변수들을 제거하는 일이 있었다. 이 때, 독립변수 간 상관관계가 일정 기준 이상 높은 변수들을 제거했어야 하는데, 나는 모르고 종속변수까지 고려를 해서 많은 변수들을 제거했었다. 그 결과가 나중에 지나고 보니 프로젝트 결과에도 어느 정도 영향을 미치지 않았을까 생각이 들면서, 독립변수와 종속변수에 대한 개념이 제대로 잡혀 있지 않았기 때문에 실수를 범했지 않았나 싶다. 그것 때문에라도 잊지 않으려고 더욱 노력해야겠다. 회귀분석 (Regression Analysi..
데이터 분석 직무의 인턴을 수행하고 있지만, 아직 많이 부족한 점이 많은 것 같아서 이런 저런 것들을 찾아보다가 DataHero라는 온라인 부트캠프 형식의 데이터 분석 과정이 있어 신청을 했다. 아무래도, 개인적으로 이 분야에 대한 공부를 하는데 있어 조금이라도 도움이 되지 않을까 하는 마음이 컸고, 그 중에서도 항상 데이터를 뜯어보고 시각화를 하다 보면 뻔한 인사이트를 도출하게 되는데 보다 넓은 시각에서 데이터를 바라보는 노하우를 배우고 싶었다. 1주차 미션은 EDA에 관한 내용이었다. EDA(Exploratory Data Analysis, 탐색적 데이터 분석)는 벨연구소의 수학자 ‘존 튜키’가 개발한 데이터분석 과정에 대한 개념으로, 데이터를 분석하고 결과를 내는 과정에 있어서 지속적으로 해당 데이터..
M/L 모델들을 다루고 평가하면서, 평가 지표로서 이용되는 MAE, MSE 등을 보았다. 부동산 가격 예측 프로젝트 당시에도 어떤 지표들을 사용해야 하는지 잘 몰라서 강사님께 여쭤봤을 때는, 보통 가격 예측 모델에서는 MAE를 쓴다라고만 들었다. 찾아보니 지표들은 크게 다르지 않지만, 이상치에 민감하거나 도메인 특성에 따라 다르게 적용을 하기 때문에 정확한 정답은 모르겠지만, 자주 사용하는 지표들에 대해서 알면 좋을 것 같다는 생각이 들었다. 이번에는 회귀 모델에 주로 쓰이는 손실함수 3가지에 대해 알아보려고 한다. 1. MSE (평균제곱오차) MSE는 추정된 값과 실제 값 간의 평균 제곱 차이를 의미한다. 주로 회귀에서 사용되는 손실 함수이며, 정확도 개념은 회귀에 적용되지 않는다고 한다. 일반적인 회..
국내 부동산 가격 예측 프로젝트를 진행하면서, 상관관계 분석을 한 바 있다. 당시에는 이게 정확히 무슨 의미인지도 모르고, 독립변수 간에만 적용되는지도 모르고 그저 상관관계 분석을 통해서 다중공선성에 해당하는 변수들을 제거한다 라는 말을 강의 때 들었던 기억 때문에 이를 제거해야 한다고만 생각했다. 그리고 이후에 포트폴리오를 만들고, 금융사 면접을 한 번 봤을 때 이에 대한 질문이 나왔을 때 제대로 이해하고 있지 못 했다. 그래서 이에 대해 이론적으로 깊게 파고들지는 못 해도 이것이 무엇을 의미하는지, 왜 하는지에 대해 다시 정확하게 정의를 정립하고 가야겠다. 다중공선성은 회귀분석의 전제 가정인 독립변수 간 높은 상관관계가 나타나 조건을 위배하는 경우를 의미한다. 즉, Target 값을 제외한 나머지 변..