특성추출(3)
-
[정보] 자연어 처리 ( Natural Language Processing / NLP )
◎ 자연어 처리 ( Natural Language Processing, NLP ) 자연어 (Natural Language) 란, 프로그래밍 언어와 같이 사람이 인공적으로 만든 언어가 아닌, 사람이 일상생활과 의사소통에 사용해 온 한국어처럼 오랜 세월에 걸쳐 자연적으로 만들어진 언어라는 의미이다. 자연어에 대한 연구는 오래전부터 이어져 오고 있음에도, 아직 컴퓨터가 자연어를 사람처럼 이해하지는 못한다. 자연어 처리 (Natural Language Processing) 는 컴퓨터가 인간의 언어를 알아들을 수 있게 만드는 학문 분야로, 자연어를 컴퓨터로 해석하고, 의미를 분석하여 이해하고, 자동으로 생성하는 것 등에 관련된 분야다. 인공지능(AI)의 하위 분야로, 1950년대부터 기계 번역과 같은 자연어 처리..
2021.02.05 -
[파이썬] 특성 추출 - TF-IDF ( 자연어 처리 / 벡터화 )
◎ TF - IDF ( Term Frequency - Inverse Document Frequency ) : 단어의 빈도(Term Frequency)와 역 문서 빈도(Inverse Document Frequency)를 토대로, 특정 문서 내에 어떤 단어가 얼마나 중요한 지를 나타내는 통계적 수치. >> 다른 문서에는 잘 등장하지 않지만, 이 문서에는 유독 많이 쓰인 단어가 이 문서의 키워드 ▷ TF (Term Frequency) 는 단어 빈도를 나타내며 문서 내에서 특정 단어가 몇 번 발견되었는지를 계산. 문서-단어 행렬이 곧 단어들의 TF 값을 구한 것임. ▷ IDF (Inverse Document Frequency) 는 DF 의 역수이며, 특정 단어가 발견되는 문서의 수를 뜻한다. 다시 말해, 특정 ..
2021.01.20 -
[파이썬] 특성 추출 - Bag of Words ( 자연어 처리 / 벡터화 )
※ 특성 추출 : 원시 데이터에서 핵심 특성을 추출하는 과정. 가공한 토큰들을 컴퓨터가 이해할 수 있는 벡터 데이터로 바꾸는 과정. ◎ Bag of Words : 문서 내 모든 단어들 (토큰)을 가방 하나에 모두 집어넣고 사용. 자주 언급된 단어일수록 가방에서 나올 확률이 높아진다. 중요한 것은 단어의 등장 빈도이며, 단어의 순서는 상관없음. · 문장 - "나는 학교에 간다. 나는 회사에 간다." 이 문장으로 단어 사전을 구성하면 다음과 같다. 단어는 오름차순의 가나다순으로 정렬. · 사전: {'간다', '나', '학교', '회사'} 이 사전 순서에 따라 각 단어가 문장에서 몇 번 발생했는지 빈도 수를 기록. → 이 예에 따르면 문서 내에 ‘간다’와 ‘나’는 2번 발견되었고 ‘학교’와 ‘회사’는 1번씩 ..
2021.01.20