[파이썬] 특성 추출 - Bag of Words ( 자연어 처리 / 벡터화 )
※ 특성 추출 : 원시 데이터에서 핵심 특성을 추출하는 과정. 가공한 토큰들을 컴퓨터가 이해할 수 있는 벡터 데이터로 바꾸는 과정. ◎ Bag of Words : 문서 내 모든 단어들 (토큰)을 가방 하나에 모두 집어넣고 사용. 자주 언급된 단어일수록 가방에서 나올 확률이 높아진다. 중요한 것은 단어의 등장 빈도이며, 단어의 순서는 상관없음. · 문장 - "나는 학교에 간다. 나는 회사에 간다." 이 문장으로 단어 사전을 구성하면 다음과 같다. 단어는 오름차순의 가나다순으로 정렬. · 사전: {'간다', '나', '학교', '회사'} 이 사전 순서에 따라 각 단어가 문장에서 몇 번 발생했는지 빈도 수를 기록. → 이 예에 따르면 문서 내에 ‘간다’와 ‘나’는 2번 발견되었고 ‘학교’와 ‘회사’는 1번씩 ..
2021.01.20