1. 텍스트 데이터
- 말뭉치 (Corpus)
→ 잘 정리된 텍스트 데이터셋
2. 텍스트 전처리
종류
토큰화, 품사태깅, NER, 어간추출, 표제어추출, 숫자&특수문자 처리
1) 토큰화
텍스트 시퀀스를 여러개 조각으로 나누는 것
n-gram: 토큰이 n개 연속된 조각으로 구성
기본적으로 Unigram 으로 하고, 추가하는 식으로 진행
2) 품사태깅
주어진 각 토큰에 적절한 품사태그를 붙이는 것
3) NER
단어나 구문을 명확한 카테고리에 지정하고 식별하는 것
ex) 서울→지역, $5.1billion→money
4) 어간 추출 Stemming
파생된 단어를 원형으로 되돌리는 작업
ex) machines → machin
5) 표제어 추출
어간 추출보다 더의미있는 형태로 추출
ex) machines → machine
3. 텍스트 특성
1) TF: 출현 빈도, Term Frequency
2) TF-IDF: 여러 문서에서 나온 단어에 페널티 주는 방식, 문서 특징을 더 잘 표현하기 위함!

nD:전체문서수,nt:단어t가나온문서수nD:전체문서수,nt:단어t가나온문서수
'AI&ML > Machine Learning' 카테고리의 다른 글
[ML] 04. Decision Tree (1) | 2024.01.12 |
---|---|
[ML] 03. Evaluation (0) | 2024.01.12 |
[ML] 01. Naïve Bayes (나이브베이즈) (0) | 2024.01.07 |
[ML] 00. Overview (0) | 2024.01.06 |
[ML] 목차 (1) | 2023.12.27 |