[파이썬] 형태소 분석 - konlpy 설치 ( 자연어 처리 / 토큰화 )

2021. 1. 17. 02:36GPT

728x90

 

 
 
형태소 란 문장을 구성하는 의미 요소 중 가장 작은 단위를 말한다.
 
품사의 종류는 다양하지만, 보통 명사, 동사, 형용사 정도만을 분석에 사용한다. 부사나 조사, 감탄사 등은 독립적으로 의미를 만들지 못하므로 잘 사용하지 않는다.
 
KoNLPy 에는 다양한 형태소 분석기가 내장되어 있어서, 텍스트의 특성이나 분석 목적에 맞는 것을 선택해 사용하면 된다. ( Korean Natural Language processing - https://konlpy.org/ko/latest/ )
 

 


 

꼬꼬마 Kkma 분석기
 
서울대학교에서 개발한 형태소 분석기다. 자바 기반으로 개발되었으며, 품질 대비 속도가 느린 편이다.
문장 분리기를 제공하며 GPL 라이선스를 따른다.

from konlpy.tag import Kkma

Kkma().pos('나는 사과가 좋다.')   # 형태소 분석

 

 

http://kkma.snu.ac.kr/documents/index.jsp

꼬꼬마, 한글 형태소 분석기 (Kind Korean Morpheme Analyzer, KKMA)

꼬꼬마 한국어 형태소 분석기 라이브러리 내려받기 및 사용하기 꼬꼬마 한글 형태소 분석기는 Java 라이브러리로써 jar 파일 형태로 배포한다. 배포하는 jar 파일을 내려받아 형태소 분석기를 사

kkma.snu.ac.kr

 
 
 
OKT (Open Korean Text Processor) 분석기
 
트위터에서 소셜 분석을 위해 개발한 형태소 분석기다. 품질이 뛰어나지는 않으나, 소셜 분석을 대상으로 하다 보니 비형식어나 신조어 등을 상대적으로 잘 찾아내고, 처리 속도가 빨라 실시간 처리 등에 많이 활용된다.
 
트위터 형태소 분석기는 2017년 이후, Open-Korean-Text 라는 이름으로 변경되어 운영되고 있다.


from konlpy.tag import Okt

voc = '형태소 란 문장을 구성하는 의미 요소 중 가장 작은 단위를 말한다.'
okt_pos = Okt().pos(voc, norm=True, stem=True)   # 형태소 분석 ( norm : 정규화 )


okt_filtering = [x for x, y in okt_pos if y in ['Noun', 'Adjective', 'Verb']]
print(okt_filtering)              # 불용어 처리 - 명사, 형용사, 동사만 선별

https://openkoreantext.org/

open-korean-text-web

openkoreantext.org

 
 
 
 
한나눔 분석기 :  카이스트에서 개발한 형태소 분석기로, 자바와 C를 지원한다.
◎ 코모란 분석기 :  샤인웨어에서 개발한 형태소 분석기로, 아파치 라이선스 2.0을 따른다.
 
은전한잎 (mecab-ko) 분석기 :  원래 일본어 형태소 분석기인데 한글을 지원하록 포팅 개발되었다.
    C++언어로 개발되었으며, 라이선스는 메캅(mecab) 일본어버전 정책인 GPL, LGPL, BSD정책을 따른다.
    처리 성능이나 속도에서 좋은 평을 받고 있다.  ( https://github.com/Pusnow/mecab-ko-msvc )
 
 


▶ konlpy 실행을 위한 설치 순서 :
 
1. Visual C++ 14.0 빌드 도구 (https://visualstudio.microsoft.com/ko/downloads/ 커뮤니티 버전)
 
2. 자바 JDK 1.8 또는 JRE ( https://www.java.com/ko/download/ ), JAVA_HOME 설정
 
3. jpype 설치 ( https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype )
운영체제의 비트 (32 / 64비트)와 파이썬 버전 맞추어 설치 - pip install <jpype 파일>
 
4. konlpy 설치 - pip install konlpy
 
 
 
 

반응형