일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 프로그래머스
- where
- pcce 기출문제
- List Comprehension
- date_format
- Len
- 아이엠어바텐더
- Join
- SQL 고득점 Kit
- html
- css
- 데이터
- 파이썬 슬라이싱
- Python3
- 설계
- 백준
- sql
- Django
- 코딩테스트 연습
- GIT
- ORDER BY
- map
- python
- 슬라이싱
- 단어 공부
- count
- 프로젝트
- 파이썬 몫
- YOLOv5
- 파이썬
- Today
- Total
목록NLP (2)
nan + nan = 2nan
* 해당 글은 위키독스의 딥러닝을 이용한 자연어 처리 입문을 참고하여 작성하였습니다. https://wikidocs.net/book/2155 딥 러닝을 이용한 자연어 처리 입문 많은 분들의 피드백으로 수년간 보완되어 온 딥 러닝 자연어 처리 무료 eBook입니다. 기본적인 텍스트 전처리부터 BERT와 같은 PLM의 다양한 다운스트림 태스크를 ... wikidocs.net 02) 정제 및 정규화 코퍼스에서 용도에 맞게 토큰을 분류하는 작업을 토큰화라고 하며, 토큰화 작업 전, 후에는 데이터를 용도에 맞게 정제 및 정규화하는 일을 항상 함께 진행함. 정제 : 갖고 있는 코퍼스로부터 노이즈 데이터 제거 정규화 : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 규칙에 기반한 표기가 다른 단어들의..
* 해당 글은 위키독스의 딥러닝을 이용한 자연어 처리 입문을 참고하여 작성하였습니다. https://wikidocs.net/book/2155 딥 러닝을 이용한 자연어 처리 입문 많은 분들의 피드백으로 수년간 보완되어 온 딥 러닝 자연어 처리 무료 eBook입니다. 기본적인 텍스트 전처리부터 BERT와 같은 PLM의 다양한 다운스트림 태스크를 ... wikidocs.net 01) 토큰화 NLP에서 크롤링으로 얻은 Corpus 데이터가 필요에 맞게 전처리 되지 않은 상태라면, 용도에 맞게 토큰화 / 정제 / 정규화가 필요 단어 토큰화 (Word Tokenization) 토큰이란 보통 의미있는 단위 토큰의 기준을 단어로 설정 시, 단어 토큰화라고 명명 ex) 구두점 및 특수기호 제외하는 간단한 토큰화 작업출력..