자동화
[파이썬] PDF 문서에서 텍스트 추출 - Tika
파이썬 서퍼
2020. 10. 27. 08:33
728x90
Tika REST Server 를 사용하여 Tika 를 사용할 수 있도록 하는 Apache Tika 라이브러리의 Python 포트이다.
TikaJAXRS - TIKA - Apache Software Foundation
배너의 맨 끝으로 배너의 맨 처음으로 TikaJAXRS 메타 데이터의 끝으로 건너뛰기 작성자 : ASF Infrabot, 최근 변경 : Tim Allison - 2월 25, 2020 메타 데이터의 시작으로 이동 This page has moved to TikaServer
cwiki.apache.org
이 라이브러리를 사용하려면 tika-python이 백그라운드에서 Tika REST 서버를 시작하므로, 시스템에 Java 7 이상이 설치되어 있어야 한다.
from tika import parser
pdf_path = "input.pdf"
# PDF 파일에서 텍스트를 추출
raw_pdf = parser.from_file(pdf_path)
contents = raw_pdf['content']
contents = contents.strip()
print(contents)
cf) 스캔한 이미지 기반의 PDF 문서는 텍스트 추출이 되지 않음.
▷ 다음은 실행한 결과이다.
반응형