2023. 9. 7. 17:01ㆍ자연어처리
GRU는 LSTM의 장기 의존성 문제에 대한 해결책을 유지하면서도, 은닉 상태를 업데이트 하는 계산을 줄였다.
다시 말해서 성능은 유지하면서 복잡했던 구조를 간소화 시켰다.
LSTM에서는 출력, 입력 , 삭제 게이트라는 3개의 게이트가 존재했다. 반면 GRU에서는 업데이트 게이트와 리셋 게이트 두 가지 게이트만이 존재한다. GRU는 LSTM보다 학습속도가 빠르다고 알려져 있는데 , 여러 평가에서는 비슷한 성능을 보인다고 알려져 있다.

기존의 LSTM을 사용하면서 최적의 하이퍼파라미터를 찾은 상태라면 굳이 GRU로 바꾸어 사용 할 필요는 없다.
- GRU의 핵심은 아래 두가지다.
(1) LSTM의 forget gate와 input gate를 통합하여 하나의 'update gate'를 만든다.
(2) Cell State와 Hidden State를 통합한다.
먼저 기존 LSTM의 Cell State 와 Hidden State가 GRU 에서는 하나의 벡터로 합쳐졌다.
그리고 LSTM의 forget, input gate는 update gate로 통합, output gate는 없어지고, reset gate로 대체되었다.
마지막으로 LSTM에서는 forget과 input이 서로 독립적이었으나, GRU에서는 전체 양이 정해져있어(=1), forget한 만큼 input하는 방식으로 제어한다. 이는 gate controller인 z(t)에 의해서 조절된다.

출처: 자연어처리 위키톡스
'자연어처리' 카테고리의 다른 글
| 트랜스포머(Transformer) 가 뭘까 - 1 (0) | 2023.09.11 |
|---|---|
| Sequence - to - Sequence ( seq2seq ) (0) | 2023.09.08 |
| Long Short - Term Memory , LSTM (1) | 2023.09.07 |
| Recurrent Neural Network , 순환 신경망 (0) | 2023.09.06 |
| Count based word Representation (2) | 2023.09.06 |