챗GPT (Chat GPT)의 동작원리와 발전단계

챗GPT(Chat Generative Pre-trained Transformer)는 자연어 처리 기술을 사용하여 대화를 이어나가는 모델로, 입력된 문장의 다음 단어를 예측하는 언어 모델이다. 이것은 대규모 데이터셋을 학습하여 생성되었으며, 이를 통해 자연스러운 대화를 이어나갈 수 있다.
챗GPT가 학습한 데이터의 크기는 570GB 정도이며, 단어로 치면 3,000억 개가 넘는다. 여기에는 책 위키백과, 보고서, 웹사이트 등에서 긁어모은 다양한 유형의 데이터가 포함되며, 언어 또한 특정언어에 국한되지 않는다.
챗GPT의 동작 원리는 그림과 같이프롬프트 (Prompt)라는 질의를 입력하면 챗GPT가 그에 대한 대답으로 컴플리션 (Completion)을 보여 준다.

구글은 2017년에 트랜스포머라는 것을 발표했는데, 한마디로 트랜스포머는 인코더와 디코더를 이용한 모델이다.
인코더의 역할은 입력한 문장을 학습하는 것이고, 디코더는 인코더의 출력을 받아 사용자가 원하는 문장을 생성하는 역할을 한다.

2018년, 오픈 AI는트랜스포머를 활용한 GPT를 발표했다. 그리고 곧이어 GPT-2 모델을 발표했을 당시, 모델이 학습하지 않은 작업도 수행 (제로샷 러닝, zero-shot learning)할 수 있다는 것에 놀라워했다. 사람으로 치면 덧셈만 가르쳤을 뿐인데 인수분 해도 할 수 있다는 말이다.
2019년, 오픈 AI는 〈퓨샷 학습자를 위한 언어 모델 Language models are few-shot learners〉이라는 논문을 통해 GPT-3 를 공개했다. 퓨샷 러닝 (few-shot learning)이란, 아주 적은 데이터를 이용해서 학습시키고 이후 원하는 결과를 얻어내는 것을 뜻한다.
즉, GPT-3는 적은 양의 데이터로 학습을 시켜도 원하는 결과를 얻을 수 있고, 전혀 학습이 되어 있지 않아도 원하는 결과를 얻을 수 있다.
GPT-3에는 4개의 언어 모델이 있다. 각 모델은 역사적으로 유명한 인물의 이름을 따서 지었다.

2023년 3월 GPT-4가 발표되었는데, 챗GPT가 2022년 11월에 발표되었으니 3개월이 조금 지난 시점에 챗GPT의 업그레이드 버전이 출시된 것이다. GPT-4는 멀티모달 기능을 제공하며, 이미지 입력을 통해 텍스트 결과를 받을 수 있다.
이 모델은 GPT-3.5보다 더 많은 데이터와 더 많은 파라미터를 사용하여 학습했으며, 무료로 사용해 보고 싶다면 마이크로소프트 빙(Bing)을 사용하면 된다.
▷ GPT-4는 멀티모달 (Multi-Modal) 기능을 제공한다.
멀티모달의 핵심인 모달리티(Modality)는 사람과 컴퓨터가 의사소통하는 다양한 채널 (예: 텍스트)을 뜻한다. 따라서, 멀티모달이란 그 채널이 여러 개라는 의미이다.
GPT-4의 경우에는 모달리티를 지원하기 때문에 이미지를 입력해서 텍스트로 결과를 받는 것이 가능하다.

GPT 기술을 활용한 openAI의 서비스는 챗GPT만 있는 것은 아니다. 다음과 같이 챗GPT의 형제로 달리 (DALL-E), 코덱스(Codex), 위스퍼 (Whisper) 등이 있다.
◎ 달리 (DALL-E)는 이미지 생성 모델로, 사용자의 의도를 파악하여 그에 따른 이미지를 생성한다.
한국어를 인식하지 못하며, 달리가 그린 그림은 저작권이 발생하지 않는다.
◎ 코덱스(Codex)는 코드 자동 생성 모델로, 파이썬(Python), C#, SQL, 자바(Java), 자바스크립트(JavaScript) 등으로 구현 가능하다. 코드를 생성하기 위해서는 구현하고자 하는 상황을 코덱스에게 설명해야 한다.
◎ 위스퍼( Whisper)는 음성 파일을 텍스트로 바꾸는 (Speech-to-Texts) 음성인식 모델로, 오류율이 높은 기존 음성인식 기술을 개선하였다. 다국어 음성 인식은 물론 음성 번역을 수행할 수 있다.