-
[파이썬] 리스트에서 특정 문자열 제거 / 문자 삭제
◎ 리스트에서 특정 문자열 제거 word_list = ['abc-123', 'def-456', 'ghi-789', 'abc-456'] search = "abc" for word in word_list: if search in word: print('>> remove: ' + word) word_list.remove(word) print(word_list) ◎ 리스트에서 문자 부분 삭제 word_list = ['abc-123', 'def-456', 'ghi-789', 'abc-456'] search = 'abc' for i, word in enumerate(word_list): if search in word: print('>> modify: ' + word) word_list[i] = word.strip..
-
[파이썬] 문자열 정리 함수 - strip / split
strip() 함수 : 문자열 앞뒤의 공백 또는 특별한 문자 삭제. lstrip() 함수 - 문자열 앞에 있는 데이터만 처리 (문자열 왼쪽)rstrip() 함수 - 문자열 뒤에 있는 데이터만 처리 (문자열 오른쪽)text = ' 안녕 ' text = data1.strip()text = '####안녕####' text = text.strip('#') ▶ 결과 : '안녕' split() 함수 : 문자열 내부에 있는 공백 또는 특별한 문자를 구분해서, 리스트 아이템으로 만듦. text = '사과 배 포도 오렌지' text = text.split() ▶ 결과 : ['사과', '배', '포도', '오렌지'] text[1] ▶ 결과 : '배'
-
[파이썬] 웹페이지를 PDF화일로 변환하는 방법 ( web to pdf / HTML to pdf ) - pdfkit
pdfkit 모듈은 wkhtmltopdf 유틸리티를 이용하여 , 웹페이지 또는 저장된 HTML문서를 PDF문서로 변환하는 래퍼 모듈이다. 따라서, wkhtmltopdf가 설치되어 있어야 하고 경로가 configuration에 지정되어야 한다. https://wkhtmltopdf.org/downloads.html wkhtmltopdfAll downloads are currently hosted via GitHub releases, so you can browse for a specific download or use the links below. Do not use wkhtmltopdf with any untrusted HTML – be sure to sanitize any user-supplied HTM..
-
[파이썬] PDF 문서 병합 / PDF 파일들을 하나로 합치기 - PyPDF2
※ PDF 문서를 병합하는 것은 PyPDF2 모듈을 이용한다. PyPDF2는 PDF 파일의 페이지를 분할, 병합, 자르기 및 변형 할 수있는 순수 Python PDF 라이브러리로, PDF 파일에 사용자 정의 데이터, 보기 옵션 및 암호를 추가 할 수 있다. PDF에서 텍스트와 메타 데이터를 검색하고 전체 파일을 함께 병합 할 수 있다. PyPDF2.PdfFileMerger (strict=True) : PdfFileMerger는 여러 PDF를 단일 PDF로 병합하며, 연결, 슬라이스, 삽입 또는 위의 조합이 가능하다. append (fileobj, bookmark = None, pages = None, import_bookmarks = True ) : 지정된 페이지 번호의 출력 파일로 병합 PyPDF2.P..
-
[파이썬] 파워포인트 / 워드 문서를 PDF 파일로 변환하는 방법 ( ppt to pdf / doc to pdf ) - 자동화
comtypes를사용하면 순수 Python에서 사용자 지정 및 디스패치 기반 COM 인터페이스를 정의, 호출 및 구현할 수 있습니다. Windows, 64 비트 Windows 및 Windows CE에서 작동합니다. ▶ 파워포인트 문서를 PDF 파일로 변환 ( ppt → pdf ) import sys import os import comtypes.client input_folder_path = "문서 읽어들일 폴더" output_folder_path = "PDF 출력 폴더" input_file_paths = os.listdir(input_folder_path) for input_file_name in input_file_paths: if not input_file_name.lower().endswith((..
-
챗GPT (Chat GPT)의 동작원리와 발전단계
챗GPT(Chat Generative Pre-trained Transformer)는 자연어 처리 기술을 사용하여 대화를 이어나가는 모델로, 입력된 문장의 다음 단어를 예측하는 언어 모델이다. 이것은 대규모 데이터셋을 학습하여 생성되었으며, 이를 통해 자연스러운 대화를 이어나갈 수 있다. 챗GPT가 학습한 데이터의 크기는 570GB 정도이며, 단어로 치면 3,000억 개가 넘는다. 여기에는 책 위키백과, 보고서, 웹사이트 등에서 긁어모은 다양한 유형의 데이터가 포함되며, 언어 또한 특정언어에 국한되지 않는다. 챗GPT의 동작 원리는 그림과 같이프롬프트 (Prompt)라는 질의를 입력하면 챗GPT가 그에 대한 대답으로 컴플리션 (Completion)을 보여 준다. 구글은 2017년에 트랜스포머라는 것을 발표..
-
[파이썬] ETRI 음성인식 기술 - STT(Speech-To-Text) API
음성인식 API 는 REST API 이며, 음성인식에 사용하기 위해 샘플링 주파수 16kHz로 녹음된 음성 파일을, Base64로 Encoding 하여 ETRI Open API 서버에 전달하면 된다. 공공 인공지능 오픈 API·DATA 서비스 포털 과학기술정보통신부의 R&D 과제를 통해 개발한 다양한 인공지능 기술 및 데이터를 누구나 사용할 수 있도록 제공 aiopen.etri.re.kr ▶ REST API의 URI 는http://aiopen.etri.re.kr:8000/WiseASR/Recognition, POST 방식으로 호출해야 한다. import urllib3 import json import base64 openApiURL = "http://aiopen.etri.re.kr:8000/WiseASR..
-
[파이썬] PDF 문서를 이미지로 변환 - pdf2image
※ PDF 문서를 이미지로 변환하는 것은 pdf2image 모듈을 이용한다. https://pypi.org/project/pdf2image pdf2image A wrapper around the pdftoppm and pdftocairo command line tools to convert PDF to a PIL Image list. pypi.org convert_from_path( ) 함수는 추출된 이미지의 PIL 객체 리스트를 반환한다. ▶ scan.pdf 화일에서 이미지를 추출한 후, 첫 이미지만 jpg 화일로 저장한 것이다. ( 해상도 : 600dpi, 페이지 지정 : 10page ) from pdf2image import convert_from_path images = convert_from_p..