본문 바로가기
반응형

유사도3

[NLP] Seq2seq with Attention ※ KAIST 주재걸 교수님 강의 및 자료를 바탕으로 작성한 글입니다. Seq2seq Sequence-to-sequence는 many to many 문제로 encoder를 통해 input sequence를 모두 읽은 후 decoder로 output sequence를 생성 및 예측하는 문제이다. Sequence-to-sequence는 sequence of words를 input으로 받아 sequence of words를 output으로 주며, 크게 encoder와 decoder로 구성되어있다. encoder와 decoder는 parameter를 share하지 않으며 encoder의 마지막 time step의 hidden state vector는 decoder의 첫 번째 time step에 들어오는 h0가 .. 2021. 9. 10.
[벡터] 벡터의 연산 , 벡터의 노름 , 벡터의 내적 ( 정사영 ) , 유사도 벡터는 숫자를 원소로 가지는 배열 또는 리스트를 말하며 공간에서의 한 점을 나타낸다. (다만, 1차원상에서 한 점은 스칼라(숫자)로 본다) 벡터를 이루는 원소의 개수를 벡터의 차원이라 한다.이번 포스팅에서는 벡터의 곱셈, 덧셈, 뺄셈 연산과 벡터의 노름, 벡터의 내적을 알아볼 것이다. 1. 벡터와 스칼라 곱셈벡터에 스칼라를 곱하면 벡터의 방향은 변하지 않고 길이가 스칼라배만큼 변한다.  0 : 벡터의 길이를 줄임scalar > 1 : 벡터의 길이를 늘림scalar : 벡터를 반대방향 전환시킴  2. 벡터의 덧셈과 뺄셈 및 성분곱두 벡터 x, y의 차원 수가 같으면 각 성분끼리 곱셈과 뺄셈 및 성분곱이 가능하다. 이 연산의 의미를 이해하기 위해 덧셈 x + y를 생각해보면, x + y는 벡터 x로부터의.. 2021. 8. 8.
딥러닝) 시소러스 , 통계 기반 기법 , 코사인 유사도 자연어 처리(Natural Language Processing, NLP)란 한국어와 영어 등 인간이 평소에 사용하는 말을 컴퓨터에게 이해시키기 위한 기술이다. 컴퓨터가 사람의 말을 이해하도록 하여 여러가지 일을 수행하게 하는 것이 자연어 처리의 목표이다. '단어'는 의미의 최소단위이므로 컴퓨터에게 단어를 이해시키는 것이 중요하다. 그 방법으로 시소러스를 활용한 기법, 통계 기반 기법, 추론 기반 기법(word2vec)이 있다. 1. 시소러스 시소러스란 유의어 사전으로 뜻이 같거나 비슷한 단어가 그룹으로 분류되어 있다. (예시 car = auto, automobile, machine, motorcar) 뿐만 아니라, 단어 사이의 상위/하위 개념 또는 전체/부분 관계를 그래프로 정의하고 있다. 시소러스는 이.. 2021. 4. 25.
728x90
반응형