본문 바로가기
반응형

분류 전체보기154

[MRC] Extraction-based MRC Extraction-based MRC 정의 Extraction-based MRC는 아래 그림과 같이 질문의 답변이 항상 주어진 지문 내에 span으로 존재하는 것을 뜻한다. ※ 데이터셋 SQuAD, KorQuAD, NewsQA, Natural Questions 위 데이터셋들은 HuggingFace Dataset에서 간편하게 받을 수 있다. HuggingFace_Datasets Extraction-based MRC 평가 방법 1. Exact Match(EM) Score 예측값과 정답이 character단위로 완전히 일치하는 경우 1점을 부여하고, 하나라도 다르면 0점을 부여한다. 2. F1 Score 예측값과 정답의 overlap을 비율로 계산하여 점수를 부여한다. 0~1점 사이의 부분점수를 받을 수 있다.. 2021. 10. 13.
[MRC] MRC 개념 / 종류 / 평가 방법 , Python Unicode , Tokenization , KorQuAD 기계독해, Machine Reading Comprehension(MRC)란 주어진 지문(Context)을 이해하고, 주어진 질의(Query/Question)의 답변(Answer)을 추론하는 문제이다. 이번 포스팅에서는 특정 지문이 주어졌다는 가정 하에 질문에 답변하는 모델을 살펴보고, 다음 포스팅에서 위키피디아 전체에서 질문에 대한 답변을 어떻게 하는지 알아볼 것이다. MRC 개념 MRC는 Query에 대한 정보가 담긴 지문을 찾은 후(Retrieval), 그 지문을 세밀히 읽어서(Read) 답변을 찾는다. 따라서 크게 Retrieval과 Read로 나뉘며 이러한 기법은 Search engine 및 Dialogue system에서도 사용된다. MRC 종류 1. Extractive Answer Datase.. 2021. 10. 13.
[특강] AI 서비스 개발 및 AI 기술팀 조직 구성 ※ 이 글은 Upstage CTO 이활석 마스터님의 강의 내용 및 자료를 바탕으로 작성합니다. 서비스에 사용되는 AI모델 개발과 수업에서 배우는 AI모델 개발이 어떻게 다른지와 AI개발을 위한 기술팀의 조직 구성과 관련된 내용입니다. 서비스 AI 모델 개발 VS 연구 AI 모델 개발 보통 학교, 연구에서는 정해진 데이터셋과 평가방식 아래서 더 뛰어난 성능을 가지는 모델을 찾는다. 반면 서비스 개발에서는 데이터셋과 평가방식 모두 없으며, 오직 서비스 요구사항만 있다. 따라서 서비스 요구사항으로부터 학습 데이터셋의 종류, 수량, 정답부터 직접 정해야 한다. 예를 들어, OCR기술을 활용하여 수식이미지를 Latex로 변환하는 서비스를 생각해보자. 서비스 기획팀과 커뮤니케이션하여 데이터셋의 종류 및 정답 등을 .. 2021. 9. 27.
[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Under BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding BERT논문 Abstract BERT는 모든 layer에서 unlabeled data로부터 왼쪽과 오른쪽의 문맥을 모두 반영하는 bidirectional representation을 pre-training한다. 그 결과 Substantial task-specific architecture없이 pre-trained BERT모델에 하나의 output layer만 추가하여 질의응답, 언어유추 등 11개의 NLP Task에서 state-of-the-art를 달성하였다. 1. Introduction Language model pre-training은 sentence-le.. 2021. 9. 26.
728x90
반응형