nan + nan = 2nan

[NLP] 딥러닝을 이용한 자연어 처리 입문_02)정제 및 정규 표현식 본문

Statistics/Machine Learning

[NLP] 딥러닝을 이용한 자연어 처리 입문_02)정제 및 정규 표현식

2nan 2022. 9. 8. 18:42
728x90

* 해당 글은 위키독스의 딥러닝을 이용한 자연어 처리 입문을 참고하여 작성하였습니다.

https://wikidocs.net/book/2155

 

딥 러닝을 이용한 자연어 처리 입문

많은 분들의 피드백으로 수년간 보완되어 온 딥 러닝 자연어 처리 무료 eBook입니다. 기본적인 텍스트 전처리부터 BERT와 같은 PLM의 다양한 다운스트림 태스크를 ...

wikidocs.net

 

02) 정제 및 정규화

코퍼스에서 용도에 맞게 토큰을 분류하는 작업을 토큰화라고 하며, 토큰화 작업 전, 후에는 데이터를 용도에 맞게 정제 및 정규화하는 일을 항상 함께 진행함.

  • 정제 : 갖고 있는 코퍼스로부터 노이즈 데이터 제거
  • 정규화 : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.

규칙에 기반한 표기가 다른 단어들의 통합

  • 같은 의미를 갖고있음에도, 표기가 다른 단어들을 하나의 단어로 정규화하는 방법 사용
    • ex) USA / US는 같은 의미를 가진 하나의 단어로 정규화 가능
  • 표기가 다른 단어들을 통합하는 방법인 어간 추출(stemming)과 표제어 추출(lemmatization)

대, 소문자 통합

  • 대부분 첫 글자는 대문자, 나머지는 소문자이기 때문에 단어의 개수를 줄이기 위해 대개 대문자를 소문자로 변환하는 소문자 변환작업이 이루어짐
  • 하지만, 고유명사 성격처럼 특정 단어들은 대문자로 유지되는 것이 옳다.

불필요한 단어의 제거

  • 보통 노이즈 데이터는 자연어가 아니면서 아무 의미도 갖지 않는 글자들을 의미하기도 하지만, 분석 목적에 맞지 않는 불용어들도 노이즈 데이터라고 하기도 함
  • 불필요 단어 제거 방법
    1. 등장 빈도가 적은 단어
    2. 길이가 짧은 단어
      1. 영어권 언어에서는 길이가 짧은 단어들은 대부분 불용어에 해당됨.
      2. 길이 조건으로 텍스트 삭제하면서 구두점들까지도 한꺼번에 제거하기 위한 이유도 존재
      3. 영어의 평균 길이는 6~7이기에 길이가 2~3이하인 단어를 줄이는 것만으로 불용어 제거에 큰 효과를 봄

정규 표현식

  • HTML 문서로부터 가져온 코퍼스의 경우 HTML을 한 번에 제거하는 방식으로서 유용
Comments