본문 바로가기
반응형

Decoder3

[MRC] Generation-based MRC 이전 포스팅에서 Extraction-based MRC에 대해 알아보았다. Extraction-based MRC는 지문 내 답의 위치를 예측하는 토큰 분류 문제로 정의하였다. 이번 포스팅에서는 Genration-based MRC에 대해 알아볼 것이다. Generation-based MRC 정의 Generation-based MRC는 주어진 질의(Question)를 보고, 지문 내 답이 있든 없든 답변을 생성해낸다. 즉 생성 문제로 정의할 수 있다. Genration-based MRC Overview Extraction-based MRC와 입력 부분은 유사하지만, Genration-based MRC의 경우 모델의 출력값이 정답 그 자체가 된다. 이때 모델은 일종의 Seq-to-Seq모델로 decoder가 있.. 2021. 10. 13.
[NLP] GPT-1 , BERT 오늘 소개할 BERT와 GPT-1(자연어 생성모델)는 모두 Transformer에 기반을 두고 있기 때문에, 만약 Transformer에 대해 잘 모른다면 아래 링크에서 Transformer를 먼저 학습해주세요! https://amber-chaeeunk.tistory.com/96 [NLP] Transformer ※ 이 글은 KAIST 주재걸 교수님의 강의 내용 및 자료를 바탕으로 작성합니다. 오늘은 Recurrent 모델을 사용하지 않고, Attention으로만 encoder와 decoder를 설계한 Transformer에 대해 다룰 것이다. 먼저 RNN amber-chaeeunk.tistory.com GPT-1과 BERT는 모두 Self-supervised Pre-training Model이다. 즉, .. 2021. 9. 19.
[NLP] Transformer ※ 이 글은 KAIST 주재걸 교수님의 강의 내용 및 자료를 바탕으로 작성합니다. 오늘은 Recurrent 모델을 사용하지 않고, Attention으로만 encoder와 decoder를 설계한 Transformer에 대해 다룰 것이다. 먼저 RNN모델에 대해 살펴보자. 기존의 RNN모델은 input에 대한 hidden vector를 순차적으로 구하였으며, 오른쪽 그림처럼 이전 time step의 input은 다음 time step의 hidden vector생성에 영향을 미친다. 왼쪽의 단어만 오른쪽의 단어에 영향을 미치면, 가령 I go home에서 I에 대한 hidden vector를 생성할 때는 go나 home에 대한 정보를 담을 수 없는 문제가 발생한다. 이때 양방향의 정보를 포함시키기 위해 Bi-.. 2021. 9. 19.
728x90
반응형