AI&ML/Machine Learning

[ML] 02. Text Data

lallala 2024. 1. 12. 15:27

1. 텍스트 데이터

- 말뭉치 (Corpus)

→ 잘 정리된 텍스트 데이터셋


 

2. 텍스트 전처리

종류

토큰화, 품사태깅, NER, 어간추출, 표제어추출, 숫자&특수문자 처리

1) 토큰화

텍스트 시퀀스를 여러개 조각으로 나누는 것

n-gram: 토큰이 n개 연속된 조각으로 구성

기본적으로 Unigram 으로 하고, 추가하는 식으로 진행

2) 품사태깅

주어진 각 토큰에 적절한 품사태그를 붙이는 것

 

3) NER

단어나 구문을 명확한 카테고리에 지정하고 식별하는 것

ex) 서울→지역, $5.1billion→money

 

4) 어간 추출 Stemming

파생된 단어를 원형으로 되돌리는 작업

ex) machines → machin

5) 표제어 추출 

어간 추출보다 더의미있는 형태로 추출

ex) machines → machine


3. 텍스트 특성

1) TF: 출현 빈도, Term Frequency

2) TF-IDF: 여러 문서에서 나온 단어에 페널티 주는 방식, 문서 특징을 더 잘 표현하기 위함!

nD:,nt:tnD:,nt:t

 

 

'AI&ML > Machine Learning' 카테고리의 다른 글

[ML] 04. Decision Tree  (1) 2024.01.12
[ML] 03. Evaluation  (0) 2024.01.12
[ML] 01. Naïve Bayes (나이브베이즈)  (0) 2024.01.07
[ML] 00. Overview  (0) 2024.01.06
[ML] 목차  (1) 2023.12.27