일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 단어 공부
- List Comprehension
- 코딩테스트 연습
- 백준
- SQL 고득점 Kit
- 데이터
- date_format
- 파이썬 슬라이싱
- Join
- 설계
- 프로그래머스
- sql
- css
- map
- 슬라이싱
- Django
- html
- Python3
- 파이썬
- 프로젝트
- YOLOv5
- count
- pcce 기출문제
- Len
- where
- 아이엠어바텐더
- GIT
- python
- ORDER BY
- 파이썬 몫
- Today
- Total
목록전체 글 (182)
nan + nan = 2nan
국내 부동산 가격 예측 프로젝트를 진행하면서, 상관관계 분석을 한 바 있다. 당시에는 이게 정확히 무슨 의미인지도 모르고, 독립변수 간에만 적용되는지도 모르고 그저 상관관계 분석을 통해서 다중공선성에 해당하는 변수들을 제거한다 라는 말을 강의 때 들었던 기억 때문에 이를 제거해야 한다고만 생각했다. 그리고 이후에 포트폴리오를 만들고, 금융사 면접을 한 번 봤을 때 이에 대한 질문이 나왔을 때 제대로 이해하고 있지 못 했다. 그래서 이에 대해 이론적으로 깊게 파고들지는 못 해도 이것이 무엇을 의미하는지, 왜 하는지에 대해 다시 정확하게 정의를 정립하고 가야겠다. 다중공선성은 회귀분석의 전제 가정인 독립변수 간 높은 상관관계가 나타나 조건을 위배하는 경우를 의미한다. 즉, Target 값을 제외한 나머지 변..
머신러닝 모델을 돌리다 보면, 하이퍼 파라미터를 직접 설정해주어야 한다. 하지만, 처음 모델을 돌리거나 그러다 보면 하이퍼 파라미터를 어떻게 설정해주어야 할지 고민이 되기도 하고 모델을 돌릴 때마다 일일이 설정해주는 것도 귀찮다. 이를 위해서 GridSearchCV와 RandomSearchCV로 파라미터들을 한꺼번에 설정하고, 조합을 알아서 맞춰서 직접 최적의 하이퍼 파라미터로 설정된 모델을 만들어준다. 근데 항상 할 때마다, GridSearchCV는 직접 숫자 하나하나를 넣어주고 테스트를 하다보니, 오히려 모델의 Default 값이 높았던 적이 훨씬 많았던 것 같았다. 그래서 RandomSearchCV가 왠지 직접 입력하는 것보다 range 안에서 직접 범위를 찾아주니 조금 더 세밀하고 좋은 것이 아닌..
데이터 처리 후 모델링을 하면서, 모델 성능을 어떻게 평가해야 되는지에 대해 궁금했다. 보통 Object Detection 모델의 성능 평가 지표로서는 Precision과 Recall이 기반이 된다. 이를 통해 PR curve(Precision - Recall), Average Precision(AP)로 성능평가를 한다. 천천히 Precision과 Recall 부터 이해를 해보자. Precision / Recall 1. Precision빅데이터 분석 기사 공부를 하면서 가볍게 외우려고 했을 때, 예측 O => 실제 O 의 형태로 암기를 하는 것이 가장 편했다. Precision은 정밀도로서, Positive로 예측한 것 중에 실제로 맞는 것들에 대한 비율이다. 즉, 맞다고 예측한 것 중에 실제로 맞는 결..
지난번 시설작물, 노지작물, 노지해충 3가지의 데이터셋에 대해 EDA를 진행한 바 있다. 생각보다 시설작물의 경우 데이터 상태가 좋지 않았다. 대부분 회사에 입사하면 Raw data는 AIhub의 데이터보다 훨씬 지저분하고 정제하는데 오래 걸린다고 하는데, 아직은 AIhub의 데이터셋, 혹은 교육 당시 이용했던 kaggle 데이터셋 밖에 이용해 보지 않아서 결측치나 노이즈도 거의 없었고, 오류 데이터가 거의 존재하지 않았다. 아무튼, 서버에 올릴 수 있는 용량이 2TB까지 밖에 안 됐기 때문에 시설작물과 노지작물, 즉 질병 데이터를 우선적으로 정제하고 모델링에 투입하고 해충 데이터는 따로 하는 방향으로 결정되었다. 시설작물 질병 데이터 정제 대상내용 정제 종류 정제 방법 중복 데이터 제거 완료 ( 건) ..
서버를 지급 받고, GTX 1660 super 데스크탑 2대를 지급 받아 본격적으로 EDA를 진행했다. 우리가 다룰 데이터셋은 총 3개이다. https://aihub.or.kr/aidata/30729 시설 작물 질병 진단 이미지 시설작물의 질병 진단을 위한 주요 시설원예작물(10종)질병 이미지 데이터 aihub.or.kr https://aihub.or.kr/aidata/30731 노지 작물 질병 진단 이미지 노지 작물의 질병 진단을 위한 주요 노지 작물(10종) 질병 이미지 데이터 aihub.or.kr https://aihub.or.kr/aidata/30730 노지 작물 해충 진단 이미지 노지 작물 해충 및 충해 진단을 위한 주요 노지 작물(10종) 해충 이미지 데이터 aihub.or.kr 각각 총 8~..