'NLP' 태그의 글 목록

250x250

Notice

Recent Posts

Recent Comments

Link

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록NLP (2)

nan + nan = 2nan

[NLP] 딥러닝을 이용한 자연어 처리 입문_02)정제 및 정규 표현식

* 해당 글은 위키독스의 딥러닝을 이용한 자연어 처리 입문을 참고하여 작성하였습니다. https://wikidocs.net/book/2155 딥 러닝을 이용한 자연어 처리 입문 많은 분들의 피드백으로 수년간 보완되어 온 딥 러닝 자연어 처리 무료 eBook입니다. 기본적인 텍스트 전처리부터 BERT와 같은 PLM의 다양한 다운스트림 태스크를 ... wikidocs.net 02) 정제 및 정규화 코퍼스에서 용도에 맞게 토큰을 분류하는 작업을 토큰화라고 하며, 토큰화 작업 전, 후에는 데이터를 용도에 맞게 정제 및 정규화하는 일을 항상 함께 진행함. 정제 : 갖고 있는 코퍼스로부터 노이즈 데이터 제거 정규화 : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 규칙에 기반한 표기가 다른 단어들의..

Statistics/Machine Learning 2022. 9. 8. 18:42

[NLP] 딥러닝을 이용한 자연어 처리 입문_01)토큰화

* 해당 글은 위키독스의 딥러닝을 이용한 자연어 처리 입문을 참고하여 작성하였습니다. https://wikidocs.net/book/2155 딥 러닝을 이용한 자연어 처리 입문 많은 분들의 피드백으로 수년간 보완되어 온 딥 러닝 자연어 처리 무료 eBook입니다. 기본적인 텍스트 전처리부터 BERT와 같은 PLM의 다양한 다운스트림 태스크를 ... wikidocs.net 01) 토큰화 NLP에서 크롤링으로 얻은 Corpus 데이터가 필요에 맞게 전처리 되지 않은 상태라면, 용도에 맞게 토큰화 / 정제 / 정규화가 필요 단어 토큰화 (Word Tokenization) 토큰이란 보통 의미있는 단위 토큰의 기준을 단어로 설정 시, 단어 토큰화라고 명명 ex) 구두점 및 특수기호 제외하는 간단한 토큰화 작업출력..

Statistics/Machine Learning 2022. 9. 8. 18:23

Prev 1 Next

목록NLP (2)

nan + nan = 2nan

티스토리툴바