반응형 Masked Multi-Head Attention2 [NLP] GPT-1 , BERT 오늘 소개할 BERT와 GPT-1(자연어 생성모델)는 모두 Transformer에 기반을 두고 있기 때문에, 만약 Transformer에 대해 잘 모른다면 아래 링크에서 Transformer를 먼저 학습해주세요! https://amber-chaeeunk.tistory.com/96 [NLP] Transformer ※ 이 글은 KAIST 주재걸 교수님의 강의 내용 및 자료를 바탕으로 작성합니다. 오늘은 Recurrent 모델을 사용하지 않고, Attention으로만 encoder와 decoder를 설계한 Transformer에 대해 다룰 것이다. 먼저 RNN amber-chaeeunk.tistory.com GPT-1과 BERT는 모두 Self-supervised Pre-training Model이다. 즉, .. 2021. 9. 19. [NLP] Transformer ※ 이 글은 KAIST 주재걸 교수님의 강의 내용 및 자료를 바탕으로 작성합니다. 오늘은 Recurrent 모델을 사용하지 않고, Attention으로만 encoder와 decoder를 설계한 Transformer에 대해 다룰 것이다. 먼저 RNN모델에 대해 살펴보자. 기존의 RNN모델은 input에 대한 hidden vector를 순차적으로 구하였으며, 오른쪽 그림처럼 이전 time step의 input은 다음 time step의 hidden vector생성에 영향을 미친다. 왼쪽의 단어만 오른쪽의 단어에 영향을 미치면, 가령 I go home에서 I에 대한 hidden vector를 생성할 때는 go나 home에 대한 정보를 담을 수 없는 문제가 발생한다. 이때 양방향의 정보를 포함시키기 위해 Bi-.. 2021. 9. 19. 이전 1 다음 728x90 반응형