[정보] 자연어 처리 ( Natural Language Processing / NLP )

2021. 2. 5. 04:35GPT

728x90

 

 

 

◎  자연어 처리 ( Natural Language Processing, NLP )


 자연어 (Natural Language) 란, 프로그래밍 언어와 같이 사람이 인공적으로 만든 언어가 아닌, 사람이 일상생활과 의사소통에 사용해 온 한국어처럼 오랜 세월에 걸쳐 자연적으로 만들어진 언어라는 의미이다.

 자연어에 대한 연구는 오래전부터 이어져 오고 있음에도, 아직 컴퓨터가 자연어를 사람처럼 이해하지는 못한다. 

 


 자연어 처리 (Natural Language Processing) 컴퓨터가 인간의 언어를 알아들을 수 있게 만드는 학문 분야로, 자연어를 컴퓨터로 해석하고, 의미를 분석하여 이해하고, 자동으로 생성하는 것 등에 관련된 분야다.

 

 인공지능(AI)의 하위 분야로, 1950년대부터 기계 번역과 같은 자연어 처리 기술이 연구되기 시작했다.
1990년대 이후에는 대량의 말뭉치(corpus) 데이터를 활용하는 기계학습통계적 자연어 처리 기법이 주류를 이뤘는데, 최근에는 딥러닝과 딥러닝 기반의 자연어 처리가 방대한 텍스트로부터 의미 있는 정보를 추출하고 활용하기 위한 언어처리 연구 개발이 전 세계적으로 활발히 진행 중이다.

 

 

 자연어 처리 (NLP) 에는 자연어 분석,  자연어 이해,  자연어 생성 등의 기술이 사용된다.

 

 자연어 분석은 그 정도에 따라 형태소 분석 (morphological analysis),  구문 분석 (syntactic analysis), 하나로써 문장의 의미에 기저(基底)하여 그 문장을 해석하는 시멘틱 분석 (semantic analysis)과 문장이 실제로 무슨 의미를 내포하는지 결정하는 실용 분석 (pragmatic analysis) 등으로 크게 나누어 구분할 수 있다.

 

 자연어 이해를 통해 말하는 사람의 말뿐만 아니라 사용자가 실제로 의미하는 바를 추론할 수 있다.

간단히 말해, 클로바, 구글어시스턴트, 알렉사 등 AI 음성인식 플랫폼에게 "밖은 어떻습니까?” 라고 물었을 때 플랫폼은 사용자가 일기 예보를 요구한다는 것을 추측할 수 있다.

 

자연어 생성은 자연어이해 의 반대로써 생각하면 된다. 정보를 나타내는 구조를, 원하는 언어로 된 올바른 문자열으로 매핑시켜야 한다

 최근 NLP 솔루션은 전 산업에서 활용돼 혁신을 가속하고 있는데,  은행, 금융 서비스 및 보험 등의 기업에서는 생산성을 향상시키는데 도움이 될 뿐만 아니라, 해석 프로세스의 오류 발생 가능성을 현저히 낮추고 데이터를 처리하는 방식을 최적화하고 있다.

 

 

 

 

◎  자연어 처리 (Natural Language Processing) 과정


데이터 수집    →    잡음 데이터 제거    →    텍스트 전처리 (형태소 분석)    →    특성 추출


 

데이터 수집  :  크롤링

 

잡음 데이터 제거 :  정규표현식

 

텍스트 전처리 는 텍스트 덩어리 (말뭉치, Corpus)를 컴퓨터가 취급하기 용이한 가장 작은 단위 (토큰, Token)으로 바꾸는 과정이다.   ( 형태소 분석 → 불용어 처리 ) :  KoNLPy

 

특성 추출 은 전처리를 거친 토큰들을 컴퓨터가 계산할 수 있는 수치 데이터 (벡터, Vector)로 전환하는 과정이다.

: Bag of Words  /  TF-IDF 

 

 

 

Bag of Words (CountVectorizer)

 

TF-IDF

 

 

 

 

 

 

 

 

반응형