반응형 AI/딥러닝26 [MRC] Retrieval, Scaling up with FAISS 지난 포스팅에서 Retrieval with dense embedding에 대해 알아보았다. 간단히 보면, question과 passage 각각을 위한 encode있다. question은 질문이 들어올 때마다 encoding을 하고, passage는 확보한 것을 미리 연산한다. question이 들어올 때마다 미리 확보한 passage와 비교해서 question과 유사도가 높은 passage를 내보낸다. embedding space에서 quesiton이 들어오면 그 question과 가장 거리가 가까운 passage들을 vector space에서 보게된다. 문제는 passage(파란색 점)가 많을 때, question과 유사한 passage를 어떻게 효율적으로 찾을 것인지이다. 이렇게 유사한 문서를 찾는 .. 2021. 10. 17. [MRC] Passage Retrieval – Dense Embedding Passage Retrieval을 위해 Passage를 적절한 벡터로 변환하는 Passage Embedding에 대해 알아볼 것이다. 지난 포스팅에서는 Sparse Embedding에 대해 다루었고, 이번에는 Dense Embedding에 대해 살펴볼 것이다. 먼저 Sparse Embedding에서 배운 TF-IDF는 Bag-of-Word를 기반으로 하기 때문에 zero value가 많고, 벡터 차원이 굉장히 크다. 그러나 이 부분은 non-zero의 위치와 값만 저장하는 등의 compressed format으로 극복 가능하다. Sparse Embedding의 장 큰 문제점은 단어간 유사성을 고려하지 못한다는 것이다. 같은 의미를 갖는 다른 단어는 완전히 다른 벡터로 임베딩 되며, vector space.. 2021. 10. 17. [MRC] Passage Retrieval – Sparse Embedding 지난 포스팅에서는 Extraction-based MRC와 Genration-based MRC에 대해 다루었다. MRC는 문서가 주어졌을 때, 그 문서 내에서 질문의 답을 찾는 것이다. 흔히 인터넷에서 검색하는 것을 생각하면 특정 문서에서 질문을 하는 것이 아닌, 대규모의 문서들이 있는 곳에서 질문을 한다. 이러한 Task를 Open-Domain Question Answering라고 하며, 대규모의 문서 중에서 질문에 대한 답을 찾는 것이다. 질문에 대한 답을 찾기 위해서는 먼저 어떤 문서에 답이 있을 지를 알아내야 한다. 이 과정을 Passage Retrieval이라 한다. 이번 포스팅에서는 Passage Retrieval에 대해 살펴볼 것이다. Passage Retrieval : 질문에 맞는 문서를 찾.. 2021. 10. 17. [MRC] Generation-based MRC 이전 포스팅에서 Extraction-based MRC에 대해 알아보았다. Extraction-based MRC는 지문 내 답의 위치를 예측하는 토큰 분류 문제로 정의하였다. 이번 포스팅에서는 Genration-based MRC에 대해 알아볼 것이다. Generation-based MRC 정의 Generation-based MRC는 주어진 질의(Question)를 보고, 지문 내 답이 있든 없든 답변을 생성해낸다. 즉 생성 문제로 정의할 수 있다. Genration-based MRC Overview Extraction-based MRC와 입력 부분은 유사하지만, Genration-based MRC의 경우 모델의 출력값이 정답 그 자체가 된다. 이때 모델은 일종의 Seq-to-Seq모델로 decoder가 있.. 2021. 10. 13. 이전 1 2 3 4 5 ··· 7 다음 728x90 반응형