본문 바로가기

AI/NLP3

Word2Vec 앞서 말한 희소표현에선 단어의 유사도를 계산할 수 없었다. 모든 단어를 길게 늘어뜰인 벡터로 고차원의 벡터로 만들 뿐 단어와 단어가 어떻게 연결되어 있는지 파악할 수 없다. 그렇기에 단어간의 유사성을 계산하고자 나온 것이 분산표현이다. 분산 표현(Distributed Representation) 분산 표현은 분포가설의 가정하에 만들어진 표현방법이라 한다. 비슷한 위치에 등장하는 단어는 비슷한 의미들을 가진다. 라는 가정이라는데, 간단히 말해 강아지하면 떠오르는게 귀엽다, 사랑스럽다 일 것이다. 이 강아지는 귀엽다와 사랑스럽다와 비슷한 의미를 가진다고 볼 수 있다. 즉 강아지라는 단어가 있을 때, 귀엽다와 사랑스럽다라는 단어의 분포가 많을 것이므로 이는 같은 의미라고 여겨지는 것 같다. 이러면 분포를 표현.. 2021. 11. 22.
Word Embedding 1. 희소 표현(Sparse Representation) 희소표현은 대부분 0으로 표현되는 방법이다. 대표적인 예로 원-핫 벡터가 있다. 예를 들어 원-핫 벡터로 표현된다 하면 'hi, my name is gildong.'의 hi는 [1,0,0,0,0]이 된다. my는 [0,1,0,0,0]이 된다. 이처럼 단어가 길어지면 길어질수록 차원이 한없이 커진다는 단점을 가지고 있다. 즉 문장의 단어가 만개면 차원도 만개가 된다. 또한 한개의 단어에만 1을 표시하고 나머지 단어는 0을 표시하므로 메모리의 불필요함이 증가된다. 또한 원-핫 벡터는 단어의 의미를 담지 못한다고 한다. 그저 단어를 자르고 그 위치 기준으로 1을 표시하기 때문이다. 즉 단어간의 유사도를 계산할 수 없다. 2. 밀집 표현(Dense Rep.. 2021. 11. 22.
자연어처리-추가예정 보호되어 있는 글 입니다. 2021. 11. 22.