워드 임베딩(Word Embedding) 이란?

2023. 8. 28. 11:50자연어처리

워드임베딩은 단어를 벡터로 표현하는 방법으로, 단어를 밀집 표현으로 변환한다.

 

1. 희소 표현(Sparse Representation)

희소표현의 대표적인 예시는 원 핫 인코딩이다.

벡터 또는 행렬의 값이 대부분 0으로 표현되는 방법을 희소 표현이라고 하며, 원-핫 벡터는 희소벡터이다.

희소벡터의 문제점은 단어의 개수가 늘어나면 벡터의 차원이 한없이 커진다는 것.

이러한 벡터 표현은 공간적 낭비를 불러옴. 원-핫 벡터와 같은 희소벡터의 문제점은 단어의 의미를 표현하지 못한다는 점.

 

2. 밀집 표현(Dense Representation)

밀집 표현은 희소 표현과는 반대되는 표현법임. 밀집 표현은 벡터의 차원을 단어 집합의 크기로 상정하지 않음.

이 과정에서 0과 1만을 갖는게 아니라 여거자기 실수 값을 가지게 된다.

이 경우 벡터의 차원이 조밀해졌다고 하여 밀집 벡터라고 함.

 

3. 워드 임베딩(Word Embedding)

단어를 밀집 벡터의 형태로 표현한 방법을 워드 임베딩 이라고 함.

이 밀집 벡터를 워드 임베딩 과정을 통해 나온 결과라고 하여 임베딩 벡터라고도 한다.

 

워드 임베딩의 방법으로는 LSA, Word2Vec, FastText 등이 있음.

케라스에서 지원하는 도구인 Embedding()은 앞서 언급한 방법을 사용하진 않지만 단어를 랜덤하게 밀집 벡터로 변환한 뒤에 인공 신경망에 가중치를 줘서 학습하는 방식으로 작동함.

 

 

 

 

출처

딥 러닝을 이용한 자연어 처리 입문 - WikiDocs