반응형 AI64 [NLP] GPT-1 , BERT 오늘 소개할 BERT와 GPT-1(자연어 생성모델)는 모두 Transformer에 기반을 두고 있기 때문에, 만약 Transformer에 대해 잘 모른다면 아래 링크에서 Transformer를 먼저 학습해주세요! https://amber-chaeeunk.tistory.com/96 [NLP] Transformer ※ 이 글은 KAIST 주재걸 교수님의 강의 내용 및 자료를 바탕으로 작성합니다. 오늘은 Recurrent 모델을 사용하지 않고, Attention으로만 encoder와 decoder를 설계한 Transformer에 대해 다룰 것이다. 먼저 RNN amber-chaeeunk.tistory.com GPT-1과 BERT는 모두 Self-supervised Pre-training Model이다. 즉, .. 2021. 9. 19. [NLP] Transformer ※ 이 글은 KAIST 주재걸 교수님의 강의 내용 및 자료를 바탕으로 작성합니다. 오늘은 Recurrent 모델을 사용하지 않고, Attention으로만 encoder와 decoder를 설계한 Transformer에 대해 다룰 것이다. 먼저 RNN모델에 대해 살펴보자. 기존의 RNN모델은 input에 대한 hidden vector를 순차적으로 구하였으며, 오른쪽 그림처럼 이전 time step의 input은 다음 time step의 hidden vector생성에 영향을 미친다. 왼쪽의 단어만 오른쪽의 단어에 영향을 미치면, 가령 I go home에서 I에 대한 hidden vector를 생성할 때는 go나 home에 대한 정보를 담을 수 없는 문제가 발생한다. 이때 양방향의 정보를 포함시키기 위해 Bi-.. 2021. 9. 19. [NLP] Beam search decoding , BLEU score 이번 포스팅에서는 크게 두 가지 개념을 다룰 것이다. 먼저 Seq2seq with Attention 등의 자연어 생성 모델에서 test time에서 더 좋은 품질의 결과를 얻을 수 있도록 하는 기법인 Beam search decoding에 대해 알아볼 것이며, 그 과정에서 Greedy decoding과 Exhaustive decoding도 함께 볼 것이다. 그 후, 자연어 생성 모델의 정확도 지표인 BLEU score에 대해 살펴볼 것이며, 그 과정에서 Precision, Recall, F-measure도 함께 볼 것이다. Greedy decoding test time에서는 다음 단어를 생성하는 과정을 반복하여 순차적으로 문장을 생성한다. 매 time step마다 가장 높은 확률을 가지는 단어 하나를 택.. 2021. 9. 12. [NLP] Seq2seq with Attention ※ KAIST 주재걸 교수님 강의 및 자료를 바탕으로 작성한 글입니다. Seq2seq Sequence-to-sequence는 many to many 문제로 encoder를 통해 input sequence를 모두 읽은 후 decoder로 output sequence를 생성 및 예측하는 문제이다. Sequence-to-sequence는 sequence of words를 input으로 받아 sequence of words를 output으로 주며, 크게 encoder와 decoder로 구성되어있다. encoder와 decoder는 parameter를 share하지 않으며 encoder의 마지막 time step의 hidden state vector는 decoder의 첫 번째 time step에 들어오는 h0가 .. 2021. 9. 10. 이전 1 2 3 4 5 6 7 ··· 16 다음 728x90 반응형