Computer Science/+α

[파이썬] 텍스트 마이닝

hyunjin 2021. 5. 18. 17:53

전 포스팅

https://hyunjini.tistory.com/16

 

1. 파이썬 설치

 

2. 파이참 설치(교육용)

 

3. java 설치

 

4. jdk 설치(환경변수 설정)

자바(JAVA) JDK 설치 및 환경 변수 설정하는 방법입니다. (tistory.com)

 

자바(JAVA) JDK 설치 및 환경 변수 설정하는 방법입니다.

자바(java)는 선 마이크로 시스템(Sun Microsystems)에서 개발된 프로그래밍 기술로 지금은 2010년 1월 오라클(Oracle)에 인수합병되었습니다. 이 자바 언어로 프로그램을 개발할 수 있고 안드로이드 앱

prolite.tistory.com

 

5.JPype 설치

 

6.KoNLPy 설치

나는 pycharm terminal에서 진행했다.

이렇게하는게 맞는지 모르겠는데 그 프로젝트로 들어가서 패키지 다운받고 일일이 했는데...

쉬운방법이 있을지도 모르겠다.

https://liveyourit.tistory.com/56

 

KoNLPy (파이썬 한글 형태소 분석기 ) 윈도우 설치 방법

파이썬 한글 형태소 분석기인 KoNLPy 설치는 아래 기입된 순서대로, 본인 환경(파이썬 버전, 윈도우 비트)에만 맞게 진행해주면 에러가 발생하지 않는다. 참고로 나의 환경은 '파이썬3.8, 윈도우10 x

liveyourit.tistory.com

https://m.blog.naver.com/PostView.naver?blogId=tony950620&logNo=221443310355&proxyReferer=https:%2F%2Fwww.google.com%2F 

 

파이썬 NLP (konlpy) 사용법

파이썬의 자연어 처리 중 형태소 분석 패키지 자연처 처리 (Natural Language Processing) 는 AI가 사...

blog.naver.com

 

7. 분석할 txt파일 프로젝트에 가져오기

 

8. 아래 블로그와 동일하게 진행해

파이썬 KoNLPy를 사용한 한글 명사 추출 및 빈도 계산 (tistory.com)

 

파이썬 KoNLPy를 사용한 한글 명사 추출 및 빈도 계산

KoNLPy 란 아무래도 언어마다 자연어처리를 하기 위한 특성이 제각각이다보니 영어에 맞춰진 자연어처리 도구를 사용하기는 한글에는 맞지 않는다. 그런 이유에서 한글 자연어 처리에 맞춤화된

liveyourit.tistory.com

//전포스팅에서 이어붙인 파일을 이용하여 txt파일 만듦

import jpype
import csv
from konlpy.tag import Okt
from collections import Counter



filename = "daejeon.txt"
f=open(filename,'r',encoding='utf-8')
daejeon=f.read()

# okt 객체생성
okt = Okt()
noun = okt.nouns(daejeon)
for i,v in enumerate(noun):
    if len(v)<2:
        noun.pop(i)


count = Counter(noun)
f.close()

# 명사빈도 카운트
noun_list = count.most_common(100)
for v in noun_list:
    print(v)

# txt 파일에 저장
with open("noun_daejeon.txt",'w',encoding='utf-8') as f:
    for v in noun_list:
        f.write(" ".join(map(str,v))) # 튜플 int 값을 str 타입으로 전환 후 조인
        f.write("\n")

# csv 파일에 저장
with open("noun_daejeon.csv","w",newline='',encoding='euc-kr') as f:
    csvw=csv.writer(f)
    for v in noun_list:
        csvw.writerow(v)

그럼 그 프로젝트 파일에 txt파일과 csv 파일이 생성된다.
완료!

 

이런식으로 나온다!!

'Computer Science > ' 카테고리의 다른 글

[파이썬] 단축키(1)  (0) 2021.08.14
[Git] Gitlab  (0) 2021.07.11
[Git] Git commit 관리  (0) 2021.07.11
[Git] Git의 기본 명령어  (0) 2021.07.03
[엑셀] csv 파일 합치기  (0) 2021.05.17