추출(3)
-
[파이썬] 형태소 분석 - konlpy 설치 ( 자연어 처리 / 토큰화 )
형태소 란 문장을 구성하는 의미 요소 중 가장 작은 단위를 말한다. 품사의 종류는 다양하지만, 보통 명사, 동사, 형용사 정도만을 분석에 사용한다. 부사나 조사, 감탄사 등은 독립적으로 의미를 만들지 못하므로 잘 사용하지 않는다. KoNLPy 에는 다양한 형태소 분석기가 내장되어 있어서, 텍스트의 특성이나 분석 목적에 맞는 것을 선택해 사용하면 된다. ( Korean Natural Language processing - https://konlpy.org/ko/latest/ ) ◎ 꼬꼬마 Kkma 분석기 서울대학교에서 개발한 형태소 분석기다. 자바 기반으로 개발되었으며, 품질 대비 속도가 느린 편이다. 문장 분리기를 제공하며 GPL 라이선스를 따른다.from konlpy.tag import Kkma Kkm..
2021.01.17 -
[파이썬] PDF 문서에서 텍스트 추출 - Tika
Tika REST Server 를 사용하여 Tika 를 사용할 수 있도록 하는 Apache Tika 라이브러리의 Python 포트이다. TikaJAXRS - TIKA - Apache Software Foundation 배너의 맨 끝으로 배너의 맨 처음으로 TikaJAXRS 메타 데이터의 끝으로 건너뛰기 작성자 : ASF Infrabot, 최근 변경 : Tim Allison - 2월 25, 2020 메타 데이터의 시작으로 이동 This page has moved to TikaServer cwiki.apache.org 이 라이브러리를 사용하려면 tika-python이 백그라운드에서 Tika REST 서버를 시작하므로, 시스템에 Java 7 이상이 설치되어 있어야 한다. from tika import pars..
2020.10.27 -
[파이썬] PDF 문서를 이미지로 변환 - pdf2image
※ PDF 문서를 이미지로 변환하는 것은 pdf2image 모듈을 이용한다. https://pypi.org/project/pdf2image pdf2image A wrapper around the pdftoppm and pdftocairo command line tools to convert PDF to a PIL Image list. pypi.org convert_from_path( ) 함수는 추출된 이미지의 PIL 객체 리스트를 반환한다. ▶ scan.pdf 화일에서 이미지를 추출한 후, 첫 이미지만 jpg 화일로 저장한 것이다. ( 해상도 : 600dpi, 페이지 지정 : 10page ) from pdf2image import convert_from_path images = convert_from_p..
2020.10.22