[ML] 02. Text Data

AI&ML/Machine Learning

[ML] 02. Text Data

lallala 2024. 1. 12. 15:27

1. 텍스트 데이터
- - 말뭉치 (Corpus)
2. 텍스트 전처리
3. 텍스트 특성

1. 텍스트 데이터

- 말뭉치 (Corpus)

→ 잘 정리된 텍스트 데이터셋

2. 텍스트 전처리

종류

토큰화, 품사태깅, NER, 어간추출, 표제어추출, 숫자&특수문자 처리

1) 토큰화

텍스트 시퀀스를 여러개 조각으로 나누는 것

n-gram: 토큰이 n개 연속된 조각으로 구성

기본적으로 Unigram 으로 하고, 추가하는 식으로 진행

2) 품사태깅

주어진 각 토큰에 적절한 품사태그를 붙이는 것

3) NER

단어나 구문을 명확한 카테고리에 지정하고 식별하는 것

ex) 서울→지역, $5.1billion→money

4) 어간 추출 Stemming

파생된 단어를 원형으로 되돌리는 작업

ex) machines → machin

5) 표제어 추출

어간 추출보다 더의미있는 형태로 추출

ex) machines → machine

3. 텍스트 특성

1) TF: 출현 빈도, Term Frequency

2) TF-IDF: 여러 문서에서 나온 단어에 페널티 주는 방식, 문서 특징을 더 잘 표현하기 위함!

$n_{D}: 전체 문서 수, n_{t}: 단어 t가 나온 문서수$

저작자표시

'AI&ML > Machine Learning' 카테고리의 다른 글

[ML] 04. Decision Tree (1)	2024.01.12
[ML] 03. Evaluation (0)	2024.01.12
[ML] 01. Naïve Bayes (나이브베이즈) (0)	2024.01.07
[ML] 00. Overview (0)	2024.01.06
[ML] 목차 (1)	2023.12.27

현재글[ML] 02. Text Data

블로그

코딩테스트실력진단, 이진논리회귀, 논리회귀, 알고리즘, 머신러닝, Django, 코딩테스트, 포인터, 리눅스, 코드트리, 다항논리회귀, python, 데이터, 이중포인터, C언어, 설문조사, 스파르타코딩클럽, 장고, GIT, 튜토리얼,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

blog...

[ML] 02. Text Data

1. 텍스트 데이터

- 말뭉치 (Corpus)

2. 텍스트 전처리

종류

1) 토큰화

2) 품사태깅

3) NER

4) 어간 추출 Stemming

5) 표제어 추출

3. 텍스트 특성

'AI&ML > Machine Learning' 카테고리의 다른 글

'AI&ML/Machine Learning'의 다른글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[ML] 02. Text Data

1. 텍스트 데이터

- 말뭉치 (Corpus)

2. 텍스트 전처리

종류

1) 토큰화

2) 품사태깅

3) NER

4) 어간 추출 Stemming

5) 표제어 추출

3. 텍스트 특성

'AI&ML > Machine Learning' 카테고리의 다른 글

'AI&ML/Machine Learning'의 다른글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역