250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 설계
- Python3
- 데이터
- count
- css
- sql
- pcce 기출문제
- 프로그래머스
- SQL 고득점 Kit
- Join
- html
- 슬라이싱
- ORDER BY
- 단어 공부
- 파이썬 몫
- List Comprehension
- map
- GIT
- where
- 파이썬
- Len
- 아이엠어바텐더
- 프로젝트
- YOLOv5
- 코딩테스트 연습
- Django
- python
- 백준
- 파이썬 슬라이싱
- date_format
Archives
- Today
- Total
목록corpus (1)
nan + nan = 2nan
[NLP] 딥러닝을 이용한 자연어 처리 입문_01)토큰화
* 해당 글은 위키독스의 딥러닝을 이용한 자연어 처리 입문을 참고하여 작성하였습니다. https://wikidocs.net/book/2155 딥 러닝을 이용한 자연어 처리 입문 많은 분들의 피드백으로 수년간 보완되어 온 딥 러닝 자연어 처리 무료 eBook입니다. 기본적인 텍스트 전처리부터 BERT와 같은 PLM의 다양한 다운스트림 태스크를 ... wikidocs.net 01) 토큰화 NLP에서 크롤링으로 얻은 Corpus 데이터가 필요에 맞게 전처리 되지 않은 상태라면, 용도에 맞게 토큰화 / 정제 / 정규화가 필요 단어 토큰화 (Word Tokenization) 토큰이란 보통 의미있는 단위 토큰의 기준을 단어로 설정 시, 단어 토큰화라고 명명 ex) 구두점 및 특수기호 제외하는 간단한 토큰화 작업출력..
Statistics/Machine Learning
2022. 9. 8. 18:23