250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- python
- GIT
- 단어 공부
- map
- where
- Len
- 슬라이싱
- css
- 파이썬 몫
- 코딩테스트 연습
- count
- List Comprehension
- 파이썬
- html
- 프로젝트
- Join
- ORDER BY
- YOLOv5
- 백준
- 파이썬 슬라이싱
- Django
- sql
- 아이엠어바텐더
- pcce 기출문제
- SQL 고득점 Kit
- 설계
- Python3
- date_format
- 프로그래머스
- 데이터
Archives
- Today
- Total
목록Undersampling (1)
nan + nan = 2nan
[인턴] Data Cleansing 및 Undersampling, Modeling
지난번 시설작물, 노지작물, 노지해충 3가지의 데이터셋에 대해 EDA를 진행한 바 있다. 생각보다 시설작물의 경우 데이터 상태가 좋지 않았다. 대부분 회사에 입사하면 Raw data는 AIhub의 데이터보다 훨씬 지저분하고 정제하는데 오래 걸린다고 하는데, 아직은 AIhub의 데이터셋, 혹은 교육 당시 이용했던 kaggle 데이터셋 밖에 이용해 보지 않아서 결측치나 노이즈도 거의 없었고, 오류 데이터가 거의 존재하지 않았다. 아무튼, 서버에 올릴 수 있는 용량이 2TB까지 밖에 안 됐기 때문에 시설작물과 노지작물, 즉 질병 데이터를 우선적으로 정제하고 모델링에 투입하고 해충 데이터는 따로 하는 방향으로 결정되었다. 시설작물 질병 데이터 정제 대상내용 정제 종류 정제 방법 중복 데이터 제거 완료 ( 건) ..
Statistics/Machine Learning
2022. 4. 27. 16:03