-
[파이썬] 문자열 정리 함수 - strip / split
strip() 함수 : 문자열 앞뒤의 공백 또는 특별한 문자 삭제. lstrip() 함수 - 문자열 앞에 있는 데이터만 처리 (문자열 왼쪽)rstrip() 함수 - 문자열 뒤에 있는 데이터만 처리 (문자열 오른쪽)text = ' 안녕 ' text = data1.strip()text = '####안녕####' text = text.strip('#') ▶ 결과 : '안녕' split() 함수 : 문자열 내부에 있는 공백 또는 특별한 문자를 구분해서, 리스트 아이템으로 만듦. text = '사과 배 포도 오렌지' text = text.split() ▶ 결과 : ['사과', '배', '포도', '오렌지'] text[1] ▶ 결과 : '배'
-
[파이썬] 리스트에서 특정 문자열 제거 / 문자 삭제
◎ 리스트에서 특정 문자열 제거 word_list = ['abc-123', 'def-456', 'ghi-789', 'abc-456'] search = "abc" for word in word_list: if search in word: print('>> remove: ' + word) word_list.remove(word) print(word_list) ◎ 리스트에서 문자 부분 삭제 word_list = ['abc-123', 'def-456', 'ghi-789', 'abc-456'] search = 'abc' for i, word in enumerate(word_list): if search in word: print('>> modify: ' + word) word_list[i] = word.strip..
-
[파이썬] PDF 문서 병합 / PDF 파일들을 하나로 합치기 - PyPDF2
※ PDF 문서를 병합하는 것은 PyPDF2 모듈을 이용한다. PyPDF2는 PDF 파일의 페이지를 분할, 병합, 자르기 및 변형 할 수있는 순수 Python PDF 라이브러리로, PDF 파일에 사용자 정의 데이터, 보기 옵션 및 암호를 추가 할 수 있다. PDF에서 텍스트와 메타 데이터를 검색하고 전체 파일을 함께 병합 할 수 있다. PyPDF2.PdfFileMerger (strict=True) : PdfFileMerger는 여러 PDF를 단일 PDF로 병합하며, 연결, 슬라이스, 삽입 또는 위의 조합이 가능하다. append (fileobj, bookmark = None, pages = None, import_bookmarks = True ) : 지정된 페이지 번호의 출력 파일로 병합 PyPDF2.P..
-
[파이썬] 아나콘다 가상환경에서 spyder 설치 (32bit)
▶ 64bit 환경에서 32비트로 사용시, set CONDA_FORCE_32BIT=1 ※ 가상환경 생성 conda create -n 가상환경이름 -n 옵션은 가상환경의 이름을 설정해주는 부분으로 나중에 가상환경을 이용하거나 삭제할 때 쓸 수 있도록 알아보기 쉽게 입력하면 됩니다. ▶ python 3.8 버전의 아나콘다 가상환경 생성 conda create -n test python=3.8 ▶ 가상환경 실행 activate test ※ 가상환경 확인 conda info --envs 만들어진 가상환경들을 확인하는 방법은 conda info --envs 또는 conda env list 명령어를 통해 가능 conda info --envs ▶ 가상환경에 spyder 설치 : 가상환경내에서 실행 conda inst..
-
[파이썬] 파워포인트 / 워드 문서를 PDF 파일로 변환하는 방법 ( ppt to pdf / doc to pdf ) - 자동화
comtypes를사용하면 순수 Python에서 사용자 지정 및 디스패치 기반 COM 인터페이스를 정의, 호출 및 구현할 수 있습니다. Windows, 64 비트 Windows 및 Windows CE에서 작동합니다. ▶ 파워포인트 문서를 PDF 파일로 변환 ( ppt → pdf ) import sys import os import comtypes.client input_folder_path = "문서 읽어들일 폴더" output_folder_path = "PDF 출력 폴더" input_file_paths = os.listdir(input_folder_path) for input_file_name in input_file_paths: if not input_file_name.lower().endswith((..
-
챗GPT (Chat GPT)의 동작원리와 발전단계
챗GPT(Chat Generative Pre-trained Transformer)는 자연어 처리 기술을 사용하여 대화를 이어나가는 모델로, 입력된 문장의 다음 단어를 예측하는 언어 모델이다. 이것은 대규모 데이터셋을 학습하여 생성되었으며, 이를 통해 자연스러운 대화를 이어나갈 수 있다. 챗GPT가 학습한 데이터의 크기는 570GB 정도이며, 단어로 치면 3,000억 개가 넘는다. 여기에는 책 위키백과, 보고서, 웹사이트 등에서 긁어모은 다양한 유형의 데이터가 포함되며, 언어 또한 특정언어에 국한되지 않는다. 챗GPT의 동작 원리는 그림과 같이프롬프트 (Prompt)라는 질의를 입력하면 챗GPT가 그에 대한 대답으로 컴플리션 (Completion)을 보여 준다. 구글은 2017년에 트랜스포머라는 것을 발표..
-
[파이썬] 미분 - 그래프 ( sympy 모듈 ) - 수학
from sympy import * init_printing() x, y = symbols('x y') fx = x**3 + 2*x**2 - 4*x - 2 # 방정식 display(Eq(y, fx)) plot(fx, (x, -5, 5), ylim=(-10, 10)) # 그래프 ◎ 도함수 / 도함수 해 diff(fx, x) # 도함수 solve(diff(fx, x), x) # 도함수-해 ◎ 극대값 / 극소값 ans = solve(diff(fx, x), x) ans_list = [] # 극대값, 극소값 for i in range(len(ans)): ans_tuple = () ans_tuple = ans_tuple + (ans[i], fx.subs(x, ans[i])) ans_list.append(ans_tu..
-
[파이썬] 특성 추출 - TF-IDF ( 자연어 처리 / 벡터화 )
◎ TF - IDF ( Term Frequency - Inverse Document Frequency ) : 단어의 빈도(Term Frequency)와 역 문서 빈도(Inverse Document Frequency)를 토대로, 특정 문서 내에 어떤 단어가 얼마나 중요한 지를 나타내는 통계적 수치. >> 다른 문서에는 잘 등장하지 않지만, 이 문서에는 유독 많이 쓰인 단어가 이 문서의 키워드 ▷ TF (Term Frequency) 는 단어 빈도를 나타내며 문서 내에서 특정 단어가 몇 번 발견되었는지를 계산. 문서-단어 행렬이 곧 단어들의 TF 값을 구한 것임. ▷ IDF (Inverse Document Frequency) 는 DF 의 역수이며, 특정 단어가 발견되는 문서의 수를 뜻한다. 다시 말해, 특정 ..