NLP & LM

2023. 7. 5. 16:49자연어처리

NLP - Natural Language Processing

자연어처리는 인공지능의 한 분유로서 머신러닝을 사용하여 텍스트와 데이터를 처리하고 해석합니다.

기계번역은 정답이 하나가 아님. 여러가지라고 가정을 하고 출발함.

단어 또는 형태소를 기계가 이해할 수 있도록 표현하는 것, 기계는 오직 숫자로만 입력을 받아야 함.

word-embedding 방식과 one-hot encoding 방식이 존재함.

분포가설

distributional hypothesis: 비슷한 맥락에 등장하는 단어들은 유사한 의미를 지니는 경향이 있음.

 

'Context'(문맥) 이란 무엇인가?

- 자신 단어 이외의 말뭉치에서 나타나는 단어를 뜻함

 

Context Windo(문맥 창)

CBOW (연속 bag-of-words) 모델

- 문맥으로부터 단어를 예측

- 소규모 데이터 셋에 대하여 성능이 좋음

SKIP-GRAM 모델

- 단어로부터 문맥을 예측

- 대규모 데이터 셋에 사용됨