반응형 AI/딥러닝26 [NLP] NLP Tasks , Bag of Words , Word Embedding , GloVe 1. NLP에 포함된 여러가지 Tasks ■ Low-level parsing · Tokenizaion 어떤 문장을 이해하기 위해 단어를 하나의 정보 단위로 볼 때 그 단어를 token이라 하며, 단어 단위로 쪼개는 작업을 tokenizaion이라 함. 문장은 이 token들이 특정 순서로 이루어진 sequence로 볼 수 있음. · Stemming 'studying, studied', '공부하는, 공부하다, 공부하고'처럼 같은 의미를 갖지만 다른 어미가 붙은 단어들로부터 어근만을 추출하여 의미를 보존 ■ Word and phrase level · NER(Named entity recognition) 단일 단어 혹은 여러 단어로 이루어지 고유명사 인식 ex) NewYork Times · POS(Part-o.. 2021. 9. 9. [이미지 분류] Modeling 이번 포스팅에서는 Pytorch를 사용하여 Modeling하는 내용을 작성할 것이다. 먼저 Modeling할 때 기반 클래스가 되는 nn.Module과 Conv, Linear, Sigmoid, Dropout등의 다양한 모듈을 살펴본 후, forward와 parameter에 대해서 다룰 예정이다. 1. 모델 클래스 생성 ■ nn.Module 위 코드와 같이 Pytorch에서 Model 클래스를 생성할 때 nn.Module클래스를 상속하는데, nn.Module에는 Pytorch에서 사용하는 자료형인 Tensor클래스 및 forward, backward 등의 학습에 필요한 Function클래스와 같은 다양한 클래스와 메서드가 포함되어 있다. ■ modules 자신이 설계하는 Custom모델의 __init__메.. 2021. 8. 27. [이미지 분류] Data Processing 오늘은 Modeling하기 전 단계인 Data Processing에서 할 수 있는 간단한 스킬을 알아볼 것이다. 이미지 데이터의 경우, 파라미터 수를 조정하기 위해 데이터를 resize하거나 over-fitting을 방지하기 위한 작업으로 이미지를 회전하거나 자르거나 noise를 추가하거나 색상을 변경하는 등의 augmentation기법을 주로 사용한다. 아래에서 하나씩 살펴보자. ■ Bounding box Bounding box는 불필요한 정보로부터 중요한 정보를 추출하기 위한 작업이다. ■ Resize 데이터의 size가 클 경우, parameter수가 많아지므로 resize를 통해 적절한 size로 조정할 수 있다. ■ Data Augmentation Data에 noise를 추가함으로써 over-f.. 2021. 8. 24. [Pytorch] Dataset , DataLoader 이번 포스팅에서는 Data를 받아서 모델에 데이터를 넘겨주기 전에 데이터를 처리하는 클래스인 Dataset과DataLoader에 대해 알아볼 것이다. Dataset클래스는 Data를 원하는 형식으로 출력하도록 하며, DataLoader클래스는 Data를 효율적으로 사용할 수 있도록 한다. 이 두 가지는 서로 다른 기능을 가지므로 개별적인 클래스로 정의한다. 먼저 Data를 load한 후 가장 먼저 설계하는 Dataset클래스 부터 살펴보자. 1. Dataset 클래스 · 데이터 입력 형태 정의 · 데이터 입력 방식 표준화 · Image, Text, Audio 등에 따른 입력정의 import torch from torch.utils.data import Dataset class CustomDataset(D.. 2021. 8. 22. 이전 1 2 3 4 5 6 7 다음 728x90 반응형