텍스트(3)
-
[정보] 자연어 처리 ( Natural Language Processing / NLP )
◎ 자연어 처리 ( Natural Language Processing, NLP ) 자연어 (Natural Language) 란, 프로그래밍 언어와 같이 사람이 인공적으로 만든 언어가 아닌, 사람이 일상생활과 의사소통에 사용해 온 한국어처럼 오랜 세월에 걸쳐 자연적으로 만들어진 언어라는 의미이다. 자연어에 대한 연구는 오래전부터 이어져 오고 있음에도, 아직 컴퓨터가 자연어를 사람처럼 이해하지는 못한다. 자연어 처리 (Natural Language Processing) 는 컴퓨터가 인간의 언어를 알아들을 수 있게 만드는 학문 분야로, 자연어를 컴퓨터로 해석하고, 의미를 분석하여 이해하고, 자동으로 생성하는 것 등에 관련된 분야다. 인공지능(AI)의 하위 분야로, 1950년대부터 기계 번역과 같은 자연어 처리..
2021.02.05 -
[파이썬] 형태소 분석 - konlpy 설치 ( 자연어 처리 / 토큰화 )
형태소 란 문장을 구성하는 의미 요소 중 가장 작은 단위를 말한다. 품사의 종류는 다양하지만, 보통 명사, 동사, 형용사 정도만을 분석에 사용한다. 부사나 조사, 감탄사 등은 독립적으로 의미를 만들지 못하므로 잘 사용하지 않는다. KoNLPy 에는 다양한 형태소 분석기가 내장되어 있어서, 텍스트의 특성이나 분석 목적에 맞는 것을 선택해 사용하면 된다. ( Korean Natural Language processing - https://konlpy.org/ko/latest/ ) ◎ 꼬꼬마 Kkma 분석기 서울대학교에서 개발한 형태소 분석기다. 자바 기반으로 개발되었으며, 품질 대비 속도가 느린 편이다. 문장 분리기를 제공하며 GPL 라이선스를 따른다.from konlpy.tag import Kkma Kkm..
2021.01.17 -
[파이썬] PDF 문서에서 텍스트 추출 - Tika
Tika REST Server 를 사용하여 Tika 를 사용할 수 있도록 하는 Apache Tika 라이브러리의 Python 포트이다. TikaJAXRS - TIKA - Apache Software Foundation 배너의 맨 끝으로 배너의 맨 처음으로 TikaJAXRS 메타 데이터의 끝으로 건너뛰기 작성자 : ASF Infrabot, 최근 변경 : Tim Allison - 2월 25, 2020 메타 데이터의 시작으로 이동 This page has moved to TikaServer cwiki.apache.org 이 라이브러리를 사용하려면 tika-python이 백그라운드에서 Tika REST 서버를 시작하므로, 시스템에 Java 7 이상이 설치되어 있어야 한다. from tika import pars..
2020.10.27