[파이썬] PDF 문서에서 텍스트 추출

[파이썬] PDF 문서에서 텍스트 추출 - Tika

2020. 10. 27. 08:33ㆍ자동화

728x90

Tika REST Server 를 사용하여 Tika 를 사용할 수 있도록 하는 Apache Tika 라이브러리의 Python 포트이다.

TikaJAXRS - TIKA - Apache Software Foundation

배너의 맨 끝으로 배너의 맨 처음으로 TikaJAXRS 메타 데이터의 끝으로 건너뛰기 작성자 : ASF Infrabot, 최근 변경 : Tim Allison - 2월 25, 2020 메타 데이터의 시작으로 이동 This page has moved to TikaServer

cwiki.apache.org

이 라이브러리를 사용하려면 tika-python이 백그라운드에서 Tika REST 서버를 시작하므로, 시스템에 Java 7 이상이 설치되어 있어야 한다.

from tika import parser

pdf_path = "input.pdf" 

# PDF 파일에서 텍스트를 추출
raw_pdf = parser.from_file(pdf_path) 
contents = raw_pdf['content'] 
contents = contents.strip()

print(contents)

cf) 스캔한 이미지 기반의 PDF 문서는 텍스트 추출이 되지 않음.

▷ 다음은 실행한 결과이다.

저작자표시 비영리 변경금지 (새창열림)

'자동화' 카테고리의 다른 글

[파이썬 ] 데이터프레임 엑셀 시트 / 차트 만들기 - pandas / openpyxl 모듈 (0)	2021.01.15
[파이썬 ] 데이터프레임 엑셀 시트 / 차트 만들기 - pandas / xlsxwriter 모듈 (0)	2021.01.14
[파이썬] PDF 문서 병합 / PDF 파일들을 하나로 합치기 - PyPDF2 (0)	2020.10.26
[파이썬] 파워포인트 / 워드 문서를 PDF 파일로 변환하는 방법 ( ppt to pdf / doc to pdf ) - 자동화 (0)	2020.10.25
[파이썬] 유튜브 영상 / 자막 다운로드 - pytube (0)	2020.10.25

파이썬의 모든 것

파이썬의 모든 것

태그

최근글

댓글

공지사항

아카이브

'자동화' 카테고리의 다른 글

관련글

티스토리툴바