GPT(6)
-
챗GPT (Chat GPT)의 동작원리와 발전단계
챗GPT(Chat Generative Pre-trained Transformer)는 자연어 처리 기술을 사용하여 대화를 이어나가는 모델로, 입력된 문장의 다음 단어를 예측하는 언어 모델이다. 이것은 대규모 데이터셋을 학습하여 생성되었으며, 이를 통해 자연스러운 대화를 이어나갈 수 있다. 챗GPT가 학습한 데이터의 크기는 570GB 정도이며, 단어로 치면 3,000억 개가 넘는다. 여기에는 책 위키백과, 보고서, 웹사이트 등에서 긁어모은 다양한 유형의 데이터가 포함되며, 언어 또한 특정언어에 국한되지 않는다. 챗GPT의 동작 원리는 그림과 같이프롬프트 (Prompt)라는 질의를 입력하면 챗GPT가 그에 대한 대답으로 컴플리션 (Completion)을 보여 준다. 구글은 2017년에 트랜스포머라는 것을 발표..
2023.04.26 -
[정보] 자연어 처리 ( Natural Language Processing / NLP )
◎ 자연어 처리 ( Natural Language Processing, NLP ) 자연어 (Natural Language) 란, 프로그래밍 언어와 같이 사람이 인공적으로 만든 언어가 아닌, 사람이 일상생활과 의사소통에 사용해 온 한국어처럼 오랜 세월에 걸쳐 자연적으로 만들어진 언어라는 의미이다. 자연어에 대한 연구는 오래전부터 이어져 오고 있음에도, 아직 컴퓨터가 자연어를 사람처럼 이해하지는 못한다. 자연어 처리 (Natural Language Processing) 는 컴퓨터가 인간의 언어를 알아들을 수 있게 만드는 학문 분야로, 자연어를 컴퓨터로 해석하고, 의미를 분석하여 이해하고, 자동으로 생성하는 것 등에 관련된 분야다. 인공지능(AI)의 하위 분야로, 1950년대부터 기계 번역과 같은 자연어 처리..
2021.02.05 -
[파이썬] 특성 추출 - TF-IDF ( 자연어 처리 / 벡터화 )
◎ TF - IDF ( Term Frequency - Inverse Document Frequency ) : 단어의 빈도(Term Frequency)와 역 문서 빈도(Inverse Document Frequency)를 토대로, 특정 문서 내에 어떤 단어가 얼마나 중요한 지를 나타내는 통계적 수치. >> 다른 문서에는 잘 등장하지 않지만, 이 문서에는 유독 많이 쓰인 단어가 이 문서의 키워드 ▷ TF (Term Frequency) 는 단어 빈도를 나타내며 문서 내에서 특정 단어가 몇 번 발견되었는지를 계산. 문서-단어 행렬이 곧 단어들의 TF 값을 구한 것임. ▷ IDF (Inverse Document Frequency) 는 DF 의 역수이며, 특정 단어가 발견되는 문서의 수를 뜻한다. 다시 말해, 특정 ..
2021.01.20 -
[파이썬] 특성 추출 - Bag of Words ( 자연어 처리 / 벡터화 )
※ 특성 추출 : 원시 데이터에서 핵심 특성을 추출하는 과정. 가공한 토큰들을 컴퓨터가 이해할 수 있는 벡터 데이터로 바꾸는 과정. ◎ Bag of Words : 문서 내 모든 단어들 (토큰)을 가방 하나에 모두 집어넣고 사용. 자주 언급된 단어일수록 가방에서 나올 확률이 높아진다. 중요한 것은 단어의 등장 빈도이며, 단어의 순서는 상관없음. · 문장 - "나는 학교에 간다. 나는 회사에 간다." 이 문장으로 단어 사전을 구성하면 다음과 같다. 단어는 오름차순의 가나다순으로 정렬. · 사전: {'간다', '나', '학교', '회사'} 이 사전 순서에 따라 각 단어가 문장에서 몇 번 발생했는지 빈도 수를 기록. → 이 예에 따르면 문서 내에 ‘간다’와 ‘나’는 2번 발견되었고 ‘학교’와 ‘회사’는 1번씩 ..
2021.01.20 -
[파이썬] 형태소 분석 - konlpy 설치 ( 자연어 처리 / 토큰화 )
형태소 란 문장을 구성하는 의미 요소 중 가장 작은 단위를 말한다. 품사의 종류는 다양하지만, 보통 명사, 동사, 형용사 정도만을 분석에 사용한다. 부사나 조사, 감탄사 등은 독립적으로 의미를 만들지 못하므로 잘 사용하지 않는다. KoNLPy 에는 다양한 형태소 분석기가 내장되어 있어서, 텍스트의 특성이나 분석 목적에 맞는 것을 선택해 사용하면 된다. ( Korean Natural Language processing - https://konlpy.org/ko/latest/ ) ◎ 꼬꼬마 Kkma 분석기 서울대학교에서 개발한 형태소 분석기다. 자바 기반으로 개발되었으며, 품질 대비 속도가 느린 편이다. 문장 분리기를 제공하며 GPL 라이선스를 따른다.from konlpy.tag import Kkma Kkm..
2021.01.17 -
[파이썬] 워드클라우드 - wordcloud 모듈
from wordcloud import WordCloud font = './sample/SeoulNamsanM.ttf' result = 'wordcloud.png' dict_data = {'소음': 15,'없다': 9,'조용하다': 8, '좋다': 7, '적다': 5, '소리': 4,'자다': 3,'있다': 3, '걱정': 3, '좀': 3, '작다': 2, '정말': 2, '쓰다': 2, '않다': 2,'차다': 1, '원룸': 1, '시끄럽다': 1, '애기': 1, '만족': 1, '진동': 1, '설치': 1, '사용': 1, '시간': 1, '생각': 1} wc = WordCloud(max_words=40, font_path=font, background_color='white') wc.gene..
2021.01.14