[파이썬] 특성추출 - 단어임베딩 ( 자연어처리 / 벡터화 ) - word2vec
※ 단어 임베딩 ( Word Embedding ) 원-핫 인코딩( one-hot encoding ) 방식에서는 텍스트의 단어를 벡터로 표현하며, 단어에 해당하는 항목만이 1이고, 다른 모든 항목은 0으로 표기한다. 이 방식에서는 단어가 같은 단어인지 아닌지를 비교하는 작업만 할 수 있다. ( 희소벡터 / 희소행렬 ) 또한, 새로운 단어를 추가하려고 하면 벡터의 차원이 증가된다. 연구자들은 이러한 단점을 극복하기 위해 단어를 다차원 공간에서 벡터화하는 방식을 고안하게 되었으며, 다차원에서 벡터화하는 것뿐만 아니라 연산처리까지 할 수 있게 하는 단어의 분산표현인 단어 임베딩 ( Word Embedding )이라는 방식을 제안하게 된다. 이것을 학습하기 위해서 만들어진 효율적인 예측 모델이 구글의 word2v..
2021.01.25