일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 파이썬 몫
- ORDER BY
- 파이썬
- count
- 데이터
- 파이썬 슬라이싱
- 코딩테스트 연습
- SQL 고득점 Kit
- 프로그래머스
- Django
- 슬라이싱
- List Comprehension
- Join
- Python3
- css
- 백준
- date_format
- 프로젝트
- pcce 기출문제
- 단어 공부
- html
- sql
- YOLOv5
- python
- GIT
- 아이엠어바텐더
- Len
- map
- 설계
- where
- Today
- Total
목록Statistics/Machine Learning (12)
nan + nan = 2nan
* 해당 글은 위키독스의 딥러닝을 이용한 자연어 처리 입문을 참고하여 작성하였습니다. https://wikidocs.net/book/2155 딥 러닝을 이용한 자연어 처리 입문 많은 분들의 피드백으로 수년간 보완되어 온 딥 러닝 자연어 처리 무료 eBook입니다. 기본적인 텍스트 전처리부터 BERT와 같은 PLM의 다양한 다운스트림 태스크를 ... wikidocs.net 02) 정제 및 정규화 코퍼스에서 용도에 맞게 토큰을 분류하는 작업을 토큰화라고 하며, 토큰화 작업 전, 후에는 데이터를 용도에 맞게 정제 및 정규화하는 일을 항상 함께 진행함. 정제 : 갖고 있는 코퍼스로부터 노이즈 데이터 제거 정규화 : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 규칙에 기반한 표기가 다른 단어들의..
* 해당 글은 위키독스의 딥러닝을 이용한 자연어 처리 입문을 참고하여 작성하였습니다. https://wikidocs.net/book/2155 딥 러닝을 이용한 자연어 처리 입문 많은 분들의 피드백으로 수년간 보완되어 온 딥 러닝 자연어 처리 무료 eBook입니다. 기본적인 텍스트 전처리부터 BERT와 같은 PLM의 다양한 다운스트림 태스크를 ... wikidocs.net 01) 토큰화 NLP에서 크롤링으로 얻은 Corpus 데이터가 필요에 맞게 전처리 되지 않은 상태라면, 용도에 맞게 토큰화 / 정제 / 정규화가 필요 단어 토큰화 (Word Tokenization) 토큰이란 보통 의미있는 단위 토큰의 기준을 단어로 설정 시, 단어 토큰화라고 명명 ex) 구두점 및 특수기호 제외하는 간단한 토큰화 작업출력..
2주차 미션은 회귀 분석에 관한 내용이었다. 내가 아는 회귀 분석은 독립변수와 종속변수 간 관계를 나타내기 위한 하나의 기법 정도로 이해하고 있었다. 독립변수, 종속변수 하니 생각나는 일이 서울시 아파트 가격 분석을 할 때, 다중공선성에 위배되는 변수들을 제거하는 일이 있었다. 이 때, 독립변수 간 상관관계가 일정 기준 이상 높은 변수들을 제거했어야 하는데, 나는 모르고 종속변수까지 고려를 해서 많은 변수들을 제거했었다. 그 결과가 나중에 지나고 보니 프로젝트 결과에도 어느 정도 영향을 미치지 않았을까 생각이 들면서, 독립변수와 종속변수에 대한 개념이 제대로 잡혀 있지 않았기 때문에 실수를 범했지 않았나 싶다. 그것 때문에라도 잊지 않으려고 더욱 노력해야겠다. 회귀분석 (Regression Analysi..
데이터 분석 직무의 인턴을 수행하고 있지만, 아직 많이 부족한 점이 많은 것 같아서 이런 저런 것들을 찾아보다가 DataHero라는 온라인 부트캠프 형식의 데이터 분석 과정이 있어 신청을 했다. 아무래도, 개인적으로 이 분야에 대한 공부를 하는데 있어 조금이라도 도움이 되지 않을까 하는 마음이 컸고, 그 중에서도 항상 데이터를 뜯어보고 시각화를 하다 보면 뻔한 인사이트를 도출하게 되는데 보다 넓은 시각에서 데이터를 바라보는 노하우를 배우고 싶었다. 1주차 미션은 EDA에 관한 내용이었다. EDA(Exploratory Data Analysis, 탐색적 데이터 분석)는 벨연구소의 수학자 ‘존 튜키’가 개발한 데이터분석 과정에 대한 개념으로, 데이터를 분석하고 결과를 내는 과정에 있어서 지속적으로 해당 데이터..
머신러닝 모델을 돌리다 보면, 하이퍼 파라미터를 직접 설정해주어야 한다. 하지만, 처음 모델을 돌리거나 그러다 보면 하이퍼 파라미터를 어떻게 설정해주어야 할지 고민이 되기도 하고 모델을 돌릴 때마다 일일이 설정해주는 것도 귀찮다. 이를 위해서 GridSearchCV와 RandomSearchCV로 파라미터들을 한꺼번에 설정하고, 조합을 알아서 맞춰서 직접 최적의 하이퍼 파라미터로 설정된 모델을 만들어준다. 근데 항상 할 때마다, GridSearchCV는 직접 숫자 하나하나를 넣어주고 테스트를 하다보니, 오히려 모델의 Default 값이 높았던 적이 훨씬 많았던 것 같았다. 그래서 RandomSearchCV가 왠지 직접 입력하는 것보다 range 안에서 직접 범위를 찾아주니 조금 더 세밀하고 좋은 것이 아닌..
데이터 처리 후 모델링을 하면서, 모델 성능을 어떻게 평가해야 되는지에 대해 궁금했다. 보통 Object Detection 모델의 성능 평가 지표로서는 Precision과 Recall이 기반이 된다. 이를 통해 PR curve(Precision - Recall), Average Precision(AP)로 성능평가를 한다. 천천히 Precision과 Recall 부터 이해를 해보자. Precision / Recall 1. Precision빅데이터 분석 기사 공부를 하면서 가볍게 외우려고 했을 때, 예측 O => 실제 O 의 형태로 암기를 하는 것이 가장 편했다. Precision은 정밀도로서, Positive로 예측한 것 중에 실제로 맞는 것들에 대한 비율이다. 즉, 맞다고 예측한 것 중에 실제로 맞는 결..
지난번 시설작물, 노지작물, 노지해충 3가지의 데이터셋에 대해 EDA를 진행한 바 있다. 생각보다 시설작물의 경우 데이터 상태가 좋지 않았다. 대부분 회사에 입사하면 Raw data는 AIhub의 데이터보다 훨씬 지저분하고 정제하는데 오래 걸린다고 하는데, 아직은 AIhub의 데이터셋, 혹은 교육 당시 이용했던 kaggle 데이터셋 밖에 이용해 보지 않아서 결측치나 노이즈도 거의 없었고, 오류 데이터가 거의 존재하지 않았다. 아무튼, 서버에 올릴 수 있는 용량이 2TB까지 밖에 안 됐기 때문에 시설작물과 노지작물, 즉 질병 데이터를 우선적으로 정제하고 모델링에 투입하고 해충 데이터는 따로 하는 방향으로 결정되었다. 시설작물 질병 데이터 정제 대상내용 정제 종류 정제 방법 중복 데이터 제거 완료 ( 건) ..
서버를 지급 받고, GTX 1660 super 데스크탑 2대를 지급 받아 본격적으로 EDA를 진행했다. 우리가 다룰 데이터셋은 총 3개이다. https://aihub.or.kr/aidata/30729 시설 작물 질병 진단 이미지 시설작물의 질병 진단을 위한 주요 시설원예작물(10종)질병 이미지 데이터 aihub.or.kr https://aihub.or.kr/aidata/30731 노지 작물 질병 진단 이미지 노지 작물의 질병 진단을 위한 주요 노지 작물(10종) 질병 이미지 데이터 aihub.or.kr https://aihub.or.kr/aidata/30730 노지 작물 해충 진단 이미지 노지 작물 해충 및 충해 진단을 위한 주요 노지 작물(10종) 해충 이미지 데이터 aihub.or.kr 각각 총 8~..
인턴 합격 후 시간이 남는 중간에 그냥 혼자 여러가지 사이드 프로젝트를 해보고 싶었다. 아직은 실력이 낮기 때문에, youtube에서 이것 저것 찾아 보다가 영화 추천 알고리즘을 간단히 구현해보는 게 있었는데 재밌을 것 같아서 해봤다. 해당 코드는 Youtube의 '빵형의 개발도상국' 채널에 있는 영화 추천 만들기 영상에서 참조했다. https://www.youtube.com/watch?v=mLwMe4KUZz8 import pandas as pd import numpy as np import json meta = pd.read_csv('movies_metadata.csv', encoding='utf8', low_memory=False) meta.head() 해당 데이터셋은 캐글에서 영화 관련 메타 데이터..
고양시에서 진행하는 정책 활용 인공지능 모델 구현 사업의 인턴으로 합격되어 받은 첫 프로젝트이다. 주말농장을 이용하는 시민들을 대상으로, 작물에 대한 이해가 부족하거나 처음 주말농장을 이용하는 시민들에게 AI를 활용한 병해충 진단 서비스를 개발하는 것이 목표였다. 아직 2개월이 지났지만, 제대로 된 서버나 인프라가 제공이 되지 않고 개인 노트북을 활용해서 개발을 해야하기 때문에, 우선적으로 딥러닝 모델을 활용해 AIhub에서 샘플 데이터를 받아 진단이 가능한지 확인을 해봤다. https://aihub.or.kr/ 홈 | AI 허브 상단으로Back to top AI 데이터를 찾으시나요? AI 학습에 필요한 다양한 데이터를 제공합니다. 원하시는 분야를 선택해 보세요. aihub.or.kr 학습이 제대로 되지..