일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 아이엠어바텐더
- SQL 고득점 Kit
- html
- python
- map
- 슬라이싱
- Len
- 데이터
- 백준
- sql
- GIT
- Python3
- YOLOv5
- List Comprehension
- 파이썬 슬라이싱
- Join
- 코딩테스트 연습
- ORDER BY
- where
- css
- 프로젝트
- Django
- 설계
- 파이썬 몫
- pcce 기출문제
- 파이썬
- count
- 프로그래머스
- 단어 공부
- date_format
- Today
- Total
목록★ (182)
nan + nan = 2nan
Chapter. 1 코드 포매팅과 도구 1. 클린 코드의 중요성 - 유지보수성 향상, 기술 부채의 감소, 에자일 개발을 통한 효과적인 작업 진행 1) 클린 코드에서 코드 포매팅의 역할 - 품질 좋은 소프트웨어를 개발, 견고하고 유지 보수가 쉬운 시스템을 만들고, 기술 부채를 회피하는 것 - 코드를 올바르게 포매팅하는 것은 작업 효율화를 위해 중요 2) 프로젝트 코딩 스타일 가이드 준수 - 좋은 코드 레이아웃에서 가장 필요한 특성은 일관성 가독성이 높아지고, 신속하게 패턴을 파악해 오류를 감지하는 것이 쉬워짐 PEP-8 표준 권장 검색 효율성 / 일관성 / 코드 품질 2. Docstring과 어노테이션 - 파이썬은 동적으로 타입을 결정하기 때문에, 주석은 가급적으로 피하고 문서화, 어노테이션을 통해 정보를..

3장) 클래스 다이어그램 (1) 클래스 -> 클래스 다이어그램으로 클래스의 멤버 변수, 멤버 함수를 보여줄 수 있고, 상속과 참조 즉 클래스 간 의존 관계를 모두 표기할 수 있다. -> 시스템 구성 요소들의 상호 의존 구조를 명확히 보게 해주며, 순환 의존 발생 지점을 어떻게 깨는 것이 좋은 결정인지 보게 해준다 (2) 연관 -> 다른 객체 참조를 가지는 인스턴스 변수 (3) 상속 -> 상속과 연관을 구분짓기 힘든 느낌. -> 저자는 상속관계는 세로, 연관 관계는 가로로 표시 -> 화살촉의 방향은 모두 의존성의 방향 (4) 예제 클래스 다이어그램 -> 메소드 중 중요한 것만 기록 -> 다이어그램을 구역 별로 나누어 구분 (5) 세부사항 5-1) 클래스 스테레오타입 ex) - 추상 메소드로, 어떤 메소드도..

데이터 분석 직무의 인턴을 수행하고 있지만, 아직 많이 부족한 점이 많은 것 같아서 이런 저런 것들을 찾아보다가 DataHero라는 온라인 부트캠프 형식의 데이터 분석 과정이 있어 신청을 했다. 아무래도, 개인적으로 이 분야에 대한 공부를 하는데 있어 조금이라도 도움이 되지 않을까 하는 마음이 컸고, 그 중에서도 항상 데이터를 뜯어보고 시각화를 하다 보면 뻔한 인사이트를 도출하게 되는데 보다 넓은 시각에서 데이터를 바라보는 노하우를 배우고 싶었다. 1주차 미션은 EDA에 관한 내용이었다. EDA(Exploratory Data Analysis, 탐색적 데이터 분석)는 벨연구소의 수학자 ‘존 튜키’가 개발한 데이터분석 과정에 대한 개념으로, 데이터를 분석하고 결과를 내는 과정에 있어서 지속적으로 해당 데이터..
정확히 해당 문제에 대해서 용어를 뭐라고 써야할지 모르겠지만, 우선적으로 Pillow 라이브러리를 이용해 반복문으로 프레임 별 이미지를 생성했다. 이 때, 파일명은 num = 0 file_list = [] for img in image_name: file_list.append(f'{img}_{num}') num += 1 test_1.jpg , test_2.jpg 이런 식으로 파일명을 생성했었다. 하지만, 이런 식으로 파일을 생성한 후 다시 해당 폴더 경로에서 순차적으로 불러 들여 읽어 OpenCV의 VideoWriter 기능을 이용해 image를 동영상으로 만드는 과정에서 문제가 생겼다. 처음에는 해당 라이브러리에 문제가 있어 화면에서 튀는 현상이 존재하나? 라는 의문이 들었는데 동영상을 분석하면서 중간..

M/L 모델들을 다루고 평가하면서, 평가 지표로서 이용되는 MAE, MSE 등을 보았다. 부동산 가격 예측 프로젝트 당시에도 어떤 지표들을 사용해야 하는지 잘 몰라서 강사님께 여쭤봤을 때는, 보통 가격 예측 모델에서는 MAE를 쓴다라고만 들었다. 찾아보니 지표들은 크게 다르지 않지만, 이상치에 민감하거나 도메인 특성에 따라 다르게 적용을 하기 때문에 정확한 정답은 모르겠지만, 자주 사용하는 지표들에 대해서 알면 좋을 것 같다는 생각이 들었다. 이번에는 회귀 모델에 주로 쓰이는 손실함수 3가지에 대해 알아보려고 한다. 1. MSE (평균제곱오차) MSE는 추정된 값과 실제 값 간의 평균 제곱 차이를 의미한다. 주로 회귀에서 사용되는 손실 함수이며, 정확도 개념은 회귀에 적용되지 않는다고 한다. 일반적인 회..
국내 부동산 가격 예측 프로젝트를 진행하면서, 상관관계 분석을 한 바 있다. 당시에는 이게 정확히 무슨 의미인지도 모르고, 독립변수 간에만 적용되는지도 모르고 그저 상관관계 분석을 통해서 다중공선성에 해당하는 변수들을 제거한다 라는 말을 강의 때 들었던 기억 때문에 이를 제거해야 한다고만 생각했다. 그리고 이후에 포트폴리오를 만들고, 금융사 면접을 한 번 봤을 때 이에 대한 질문이 나왔을 때 제대로 이해하고 있지 못 했다. 그래서 이에 대해 이론적으로 깊게 파고들지는 못 해도 이것이 무엇을 의미하는지, 왜 하는지에 대해 다시 정확하게 정의를 정립하고 가야겠다. 다중공선성은 회귀분석의 전제 가정인 독립변수 간 높은 상관관계가 나타나 조건을 위배하는 경우를 의미한다. 즉, Target 값을 제외한 나머지 변..
머신러닝 모델을 돌리다 보면, 하이퍼 파라미터를 직접 설정해주어야 한다. 하지만, 처음 모델을 돌리거나 그러다 보면 하이퍼 파라미터를 어떻게 설정해주어야 할지 고민이 되기도 하고 모델을 돌릴 때마다 일일이 설정해주는 것도 귀찮다. 이를 위해서 GridSearchCV와 RandomSearchCV로 파라미터들을 한꺼번에 설정하고, 조합을 알아서 맞춰서 직접 최적의 하이퍼 파라미터로 설정된 모델을 만들어준다. 근데 항상 할 때마다, GridSearchCV는 직접 숫자 하나하나를 넣어주고 테스트를 하다보니, 오히려 모델의 Default 값이 높았던 적이 훨씬 많았던 것 같았다. 그래서 RandomSearchCV가 왠지 직접 입력하는 것보다 range 안에서 직접 범위를 찾아주니 조금 더 세밀하고 좋은 것이 아닌..

데이터 처리 후 모델링을 하면서, 모델 성능을 어떻게 평가해야 되는지에 대해 궁금했다. 보통 Object Detection 모델의 성능 평가 지표로서는 Precision과 Recall이 기반이 된다. 이를 통해 PR curve(Precision - Recall), Average Precision(AP)로 성능평가를 한다. 천천히 Precision과 Recall 부터 이해를 해보자. Precision / Recall 1. Precision빅데이터 분석 기사 공부를 하면서 가볍게 외우려고 했을 때, 예측 O => 실제 O 의 형태로 암기를 하는 것이 가장 편했다. Precision은 정밀도로서, Positive로 예측한 것 중에 실제로 맞는 것들에 대한 비율이다. 즉, 맞다고 예측한 것 중에 실제로 맞는 결..
지난번 시설작물, 노지작물, 노지해충 3가지의 데이터셋에 대해 EDA를 진행한 바 있다. 생각보다 시설작물의 경우 데이터 상태가 좋지 않았다. 대부분 회사에 입사하면 Raw data는 AIhub의 데이터보다 훨씬 지저분하고 정제하는데 오래 걸린다고 하는데, 아직은 AIhub의 데이터셋, 혹은 교육 당시 이용했던 kaggle 데이터셋 밖에 이용해 보지 않아서 결측치나 노이즈도 거의 없었고, 오류 데이터가 거의 존재하지 않았다. 아무튼, 서버에 올릴 수 있는 용량이 2TB까지 밖에 안 됐기 때문에 시설작물과 노지작물, 즉 질병 데이터를 우선적으로 정제하고 모델링에 투입하고 해충 데이터는 따로 하는 방향으로 결정되었다. 시설작물 질병 데이터 정제 대상내용 정제 종류 정제 방법 중복 데이터 제거 완료 ( 건) ..
서버를 지급 받고, GTX 1660 super 데스크탑 2대를 지급 받아 본격적으로 EDA를 진행했다. 우리가 다룰 데이터셋은 총 3개이다. https://aihub.or.kr/aidata/30729 시설 작물 질병 진단 이미지 시설작물의 질병 진단을 위한 주요 시설원예작물(10종)질병 이미지 데이터 aihub.or.kr https://aihub.or.kr/aidata/30731 노지 작물 질병 진단 이미지 노지 작물의 질병 진단을 위한 주요 노지 작물(10종) 질병 이미지 데이터 aihub.or.kr https://aihub.or.kr/aidata/30730 노지 작물 해충 진단 이미지 노지 작물 해충 및 충해 진단을 위한 주요 노지 작물(10종) 해충 이미지 데이터 aihub.or.kr 각각 총 8~..