본문 바로가기
반응형

분류 전체보기154

[NLP] NLP Tasks , Bag of Words , Word Embedding , GloVe 1. NLP에 포함된 여러가지 Tasks ■ Low-level parsing · Tokenizaion 어떤 문장을 이해하기 위해 단어를 하나의 정보 단위로 볼 때 그 단어를 token이라 하며, 단어 단위로 쪼개는 작업을 tokenizaion이라 함. 문장은 이 token들이 특정 순서로 이루어진 sequence로 볼 수 있음. · Stemming 'studying, studied', '공부하는, 공부하다, 공부하고'처럼 같은 의미를 갖지만 다른 어미가 붙은 단어들로부터 어근만을 추출하여 의미를 보존 ■ Word and phrase level · NER(Named entity recognition) 단일 단어 혹은 여러 단어로 이루어지 고유명사 인식 ex) NewYork Times · POS(Part-o.. 2021. 9. 9.
[부스트캠프 AI-Tech] 4주차 회고록 1. 학습기록 [EDA] [Data Processing] https://amber-chaeeunk.tistory.com/87 [Modeling] https://amber-chaeeunk.tistory.com/88 [Training] 3. 일정 2. 이미지 분류 대회 ■ 대회 요약 ■ 클래스 분류 ■ 새로 알게된 내용 - os.listdir / os.walk / os.glob를 사용하여 하위 파일 경로를 리스트에 저장할 수 있다. - 이미지 분야는 Dataset클래스에서 __init__ 이 아닌 __getitem__ 에서 이미지를 받아온다. 3. 피어세션 팀 이미지 분류 모델 튜닝 역할 분담 현재 만들어 놓은 augmentation이 적용한 data와 efficientnet모델을 main으로 삼아, 우선 .. 2021. 8. 27.
[이미지 분류] Modeling 이번 포스팅에서는 Pytorch를 사용하여 Modeling하는 내용을 작성할 것이다. 먼저 Modeling할 때 기반 클래스가 되는 nn.Module과 Conv, Linear, Sigmoid, Dropout등의 다양한 모듈을 살펴본 후, forward와 parameter에 대해서 다룰 예정이다. 1. 모델 클래스 생성 ■ nn.Module 위 코드와 같이 Pytorch에서 Model 클래스를 생성할 때 nn.Module클래스를 상속하는데, nn.Module에는 Pytorch에서 사용하는 자료형인 Tensor클래스 및 forward, backward 등의 학습에 필요한 Function클래스와 같은 다양한 클래스와 메서드가 포함되어 있다. ■ modules 자신이 설계하는 Custom모델의 __init__메.. 2021. 8. 27.
[이미지 분류] Data Processing 오늘은 Modeling하기 전 단계인 Data Processing에서 할 수 있는 간단한 스킬을 알아볼 것이다. 이미지 데이터의 경우, 파라미터 수를 조정하기 위해 데이터를 resize하거나 over-fitting을 방지하기 위한 작업으로 이미지를 회전하거나 자르거나 noise를 추가하거나 색상을 변경하는 등의 augmentation기법을 주로 사용한다. 아래에서 하나씩 살펴보자. ■ Bounding box Bounding box는 불필요한 정보로부터 중요한 정보를 추출하기 위한 작업이다. ■ Resize 데이터의 size가 클 경우, parameter수가 많아지므로 resize를 통해 적절한 size로 조정할 수 있다. ■ Data Augmentation Data에 noise를 추가함으로써 over-f.. 2021. 8. 24.
728x90
반응형