AI&ML/Machine Learning

[ML] 02. Text Data

hyunjin 2024. 1. 12. 15:27

목차

    1. 텍스트 데이터

    - 말뭉치 (Corpus)

    → 잘 정리된 텍스트 데이터셋


     

    2. 텍스트 전처리

    종류

    토큰화, 품사태깅, NER, 어간추출, 표제어추출, 숫자&특수문자 처리

    1) 토큰화

    텍스트 시퀀스를 여러개 조각으로 나누는 것

    n-gram: 토큰이 n개 연속된 조각으로 구성

    기본적으로 Unigram 으로 하고, 추가하는 식으로 진행

    2) 품사태깅

    주어진 각 토큰에 적절한 품사태그를 붙이는 것

     

    3) NER

    단어나 구문을 명확한 카테고리에 지정하고 식별하는 것

    ex) 서울→지역, $5.1billion→money

     

    4) 어간 추출 Stemming

    파생된 단어를 원형으로 되돌리는 작업

    ex) machines → machin

    5) 표제어 추출 

    어간 추출보다 더의미있는 형태로 추출

    ex) machines → machine


    3. 텍스트 특성

    1) TF: 출현 빈도, Term Frequency

    2) TF-IDF: 여러 문서에서 나온 단어에 페널티 주는 방식, 문서 특징을 더 잘 표현하기 위함!

    $$n_{D}: 전체 문서 수, n_{t}: 단어 t가 나온 문서수$$

     

     

    'AI&ML > Machine Learning' 카테고리의 다른 글

    [ML] 04. Decision Tree  (1) 2024.01.12
    [ML] 03. Evaluation  (0) 2024.01.12
    [ML] 01. Naïve Bayes (나이브베이즈)  (0) 2024.01.07
    [ML] 00. Overview  (0) 2024.01.06
    [ML] 목차  (1) 2023.12.27