2021. 2. 5. 04:35ㆍGPT
◎ 자연어 처리 ( Natural Language Processing, NLP )
자연어 (Natural Language) 란, 프로그래밍 언어와 같이 사람이 인공적으로 만든 언어가 아닌, 사람이 일상생활과 의사소통에 사용해 온 한국어처럼 오랜 세월에 걸쳐 자연적으로 만들어진 언어라는 의미이다.
자연어에 대한 연구는 오래전부터 이어져 오고 있음에도, 아직 컴퓨터가 자연어를 사람처럼 이해하지는 못한다.
자연어 처리 (Natural Language Processing) 는 컴퓨터가 인간의 언어를 알아들을 수 있게 만드는 학문 분야로, 자연어를 컴퓨터로 해석하고, 의미를 분석하여 이해하고, 자동으로 생성하는 것 등에 관련된 분야다.
인공지능(AI)의 하위 분야로, 1950년대부터 기계 번역과 같은 자연어 처리 기술이 연구되기 시작했다.
1990년대 이후에는 대량의 말뭉치(corpus) 데이터를 활용하는 기계학습 및 통계적 자연어 처리 기법이 주류를 이뤘는데, 최근에는 딥러닝과 딥러닝 기반의 자연어 처리가 방대한 텍스트로부터 의미 있는 정보를 추출하고 활용하기 위한 언어처리 연구 개발이 전 세계적으로 활발히 진행 중이다.
자연어 처리 (NLP) 에는 자연어 분석, 자연어 이해, 자연어 생성 등의 기술이 사용된다.
자연어 분석은 그 정도에 따라 형태소 분석 (morphological analysis), 구문 분석 (syntactic analysis), 하나로써 문장의 의미에 기저(基底)하여 그 문장을 해석하는 시멘틱 분석 (semantic analysis)과 문장이 실제로 무슨 의미를 내포하는지 결정하는 실용 분석 (pragmatic analysis) 등으로 크게 나누어 구분할 수 있다.
자연어 이해를 통해 말하는 사람의 말뿐만 아니라 사용자가 실제로 의미하는 바를 추론할 수 있다.
간단히 말해, 클로바, 구글어시스턴트, 알렉사 등 AI 음성인식 플랫폼에게 "밖은 어떻습니까?” 라고 물었을 때 플랫폼은 사용자가 일기 예보를 요구한다는 것을 추측할 수 있다.
자연어 생성은 자연어이해 의 반대로써 생각하면 된다. 정보를 나타내는 구조를, 원하는 언어로 된 올바른 문자열으로 매핑시켜야 한다
최근 NLP 솔루션은 전 산업에서 활용돼 혁신을 가속하고 있는데, 은행, 금융 서비스 및 보험 등의 기업에서는 생산성을 향상시키는데 도움이 될 뿐만 아니라, 해석 프로세스의 오류 발생 가능성을 현저히 낮추고 데이터를 처리하는 방식을 최적화하고 있다.
◎ 자연어 처리 (Natural Language Processing) 과정
데이터 수집 → 잡음 데이터 제거 → 텍스트 전처리 (형태소 분석) → 특성 추출
데이터 수집 : 크롤링
잡음 데이터 제거 : 정규표현식
텍스트 전처리 는 텍스트 덩어리 (말뭉치, Corpus)를 컴퓨터가 취급하기 용이한 가장 작은 단위 (토큰, Token)으로 바꾸는 과정이다. ( 형태소 분석 → 불용어 처리 ) : KoNLPy
특성 추출 은 전처리를 거친 토큰들을 컴퓨터가 계산할 수 있는 수치 데이터 (벡터, Vector)로 전환하는 과정이다.
: Bag of Words / TF-IDF
'GPT' 카테고리의 다른 글
챗GPT (Chat GPT)의 동작원리와 발전단계 (0) | 2023.04.26 |
---|---|
[파이썬] 특성 추출 - TF-IDF ( 자연어 처리 / 벡터화 ) (0) | 2021.01.20 |
[파이썬] 특성 추출 - Bag of Words ( 자연어 처리 / 벡터화 ) (0) | 2021.01.20 |
[파이썬] 형태소 분석 - konlpy 설치 ( 자연어 처리 / 토큰화 ) (0) | 2021.01.17 |
[파이썬] 워드클라우드 - wordcloud 모듈 (0) | 2021.01.14 |