일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 파이썬 슬라이싱
- pcce 기출문제
- python
- ORDER BY
- 프로젝트
- Python3
- css
- sql
- Len
- html
- List Comprehension
- 단어 공부
- 백준
- where
- 파이썬 몫
- date_format
- 설계
- 아이엠어바텐더
- Join
- GIT
- 데이터
- count
- 파이썬
- Django
- 슬라이싱
- YOLOv5
- 코딩테스트 연습
- SQL 고득점 Kit
- map
- 프로그래머스
- Today
- Total
목록Statistics (18)
nan + nan = 2nan
머신러닝 모델을 돌리다 보면, 하이퍼 파라미터를 직접 설정해주어야 한다. 하지만, 처음 모델을 돌리거나 그러다 보면 하이퍼 파라미터를 어떻게 설정해주어야 할지 고민이 되기도 하고 모델을 돌릴 때마다 일일이 설정해주는 것도 귀찮다. 이를 위해서 GridSearchCV와 RandomSearchCV로 파라미터들을 한꺼번에 설정하고, 조합을 알아서 맞춰서 직접 최적의 하이퍼 파라미터로 설정된 모델을 만들어준다. 근데 항상 할 때마다, GridSearchCV는 직접 숫자 하나하나를 넣어주고 테스트를 하다보니, 오히려 모델의 Default 값이 높았던 적이 훨씬 많았던 것 같았다. 그래서 RandomSearchCV가 왠지 직접 입력하는 것보다 range 안에서 직접 범위를 찾아주니 조금 더 세밀하고 좋은 것이 아닌..
데이터 처리 후 모델링을 하면서, 모델 성능을 어떻게 평가해야 되는지에 대해 궁금했다. 보통 Object Detection 모델의 성능 평가 지표로서는 Precision과 Recall이 기반이 된다. 이를 통해 PR curve(Precision - Recall), Average Precision(AP)로 성능평가를 한다. 천천히 Precision과 Recall 부터 이해를 해보자. Precision / Recall 1. Precision빅데이터 분석 기사 공부를 하면서 가볍게 외우려고 했을 때, 예측 O => 실제 O 의 형태로 암기를 하는 것이 가장 편했다. Precision은 정밀도로서, Positive로 예측한 것 중에 실제로 맞는 것들에 대한 비율이다. 즉, 맞다고 예측한 것 중에 실제로 맞는 결..
지난번 시설작물, 노지작물, 노지해충 3가지의 데이터셋에 대해 EDA를 진행한 바 있다. 생각보다 시설작물의 경우 데이터 상태가 좋지 않았다. 대부분 회사에 입사하면 Raw data는 AIhub의 데이터보다 훨씬 지저분하고 정제하는데 오래 걸린다고 하는데, 아직은 AIhub의 데이터셋, 혹은 교육 당시 이용했던 kaggle 데이터셋 밖에 이용해 보지 않아서 결측치나 노이즈도 거의 없었고, 오류 데이터가 거의 존재하지 않았다. 아무튼, 서버에 올릴 수 있는 용량이 2TB까지 밖에 안 됐기 때문에 시설작물과 노지작물, 즉 질병 데이터를 우선적으로 정제하고 모델링에 투입하고 해충 데이터는 따로 하는 방향으로 결정되었다. 시설작물 질병 데이터 정제 대상내용 정제 종류 정제 방법 중복 데이터 제거 완료 ( 건) ..
서버를 지급 받고, GTX 1660 super 데스크탑 2대를 지급 받아 본격적으로 EDA를 진행했다. 우리가 다룰 데이터셋은 총 3개이다. https://aihub.or.kr/aidata/30729 시설 작물 질병 진단 이미지 시설작물의 질병 진단을 위한 주요 시설원예작물(10종)질병 이미지 데이터 aihub.or.kr https://aihub.or.kr/aidata/30731 노지 작물 질병 진단 이미지 노지 작물의 질병 진단을 위한 주요 노지 작물(10종) 질병 이미지 데이터 aihub.or.kr https://aihub.or.kr/aidata/30730 노지 작물 해충 진단 이미지 노지 작물 해충 및 충해 진단을 위한 주요 노지 작물(10종) 해충 이미지 데이터 aihub.or.kr 각각 총 8~..
인턴 합격 후 시간이 남는 중간에 그냥 혼자 여러가지 사이드 프로젝트를 해보고 싶었다. 아직은 실력이 낮기 때문에, youtube에서 이것 저것 찾아 보다가 영화 추천 알고리즘을 간단히 구현해보는 게 있었는데 재밌을 것 같아서 해봤다. 해당 코드는 Youtube의 '빵형의 개발도상국' 채널에 있는 영화 추천 만들기 영상에서 참조했다. https://www.youtube.com/watch?v=mLwMe4KUZz8 import pandas as pd import numpy as np import json meta = pd.read_csv('movies_metadata.csv', encoding='utf8', low_memory=False) meta.head() 해당 데이터셋은 캐글에서 영화 관련 메타 데이터..
고양시에서 진행하는 정책 활용 인공지능 모델 구현 사업의 인턴으로 합격되어 받은 첫 프로젝트이다. 주말농장을 이용하는 시민들을 대상으로, 작물에 대한 이해가 부족하거나 처음 주말농장을 이용하는 시민들에게 AI를 활용한 병해충 진단 서비스를 개발하는 것이 목표였다. 아직 2개월이 지났지만, 제대로 된 서버나 인프라가 제공이 되지 않고 개인 노트북을 활용해서 개발을 해야하기 때문에, 우선적으로 딥러닝 모델을 활용해 AIhub에서 샘플 데이터를 받아 진단이 가능한지 확인을 해봤다. https://aihub.or.kr/ 홈 | AI 허브 상단으로Back to top AI 데이터를 찾으시나요? AI 학습에 필요한 다양한 데이터를 제공합니다. 원하시는 분야를 선택해 보세요. aihub.or.kr 학습이 제대로 되지..
최근 빅데이터 분석에 관한 책을 읽고 있는데, 해당 글의 저자가 구글 트렌드를 통해서 지난 미 대선 당시 트럼프와 힐러리의 대선 결과를 예측하고 맞추었다는 사실을 알게 되었다. 사실 국내에서는 여러 여론조사기관이 발표하는 지지율 조사가 있지만, 이 경우 예를 들어 1000명을 대상으로 조사를 했다고 하더라도 실제 조사에 응답한 응답률은 그보다 낮을 수 밖에 없고 조사의 신뢰도에 대한 의구심이 항상 들 수 밖에 없었다. 그래서 나도 이러한 툴을 사용해서 직접 이번 대선 결과에 대해 분석해보고 이런 결과가 나온 이유는 무엇일까?라는 생각에서 구글 트렌드를 이용해서 분석해보기로 했다. 단, 구글 트렌드가 미국에서는 구글 사용량이 대부분 높기 때문에 효과적이겠지만 우리 나라의 경우 네이버, 카카오 등 구글 이외..
머신러닝 기계 학습 : 기계를 가르친다 기계를 어떻게 가르칠 것인가? 에 따라 두가지 형태로 나눠 생각한다. Supervised Learning(지도 학습) Unsupervised Learning(비지도 학습) 지도학습 (Supervised Learning) 데이터에 Label(정답)이 미리 정해져 있을 때 가능 프로그램에 입력 값을 주면 출력 값을 기계가 알아서 예측해서 출력해주는 형태 지도 학습은 또 다시 Regression (회귀) 와 Classification (분류) 로 세분화 Regression (회귀) : 연속된 값, 수치, 즉 '얼마나'를 예측 Classification (분류) : 연속적이지 않은 값, '무엇'을 예측 비지도학습 (Unsupervised Learning) 레이블이 정해져 ..