티스토리 뷰
[Day 34] Computer Vision (CV) - 5
1. 강의 복습 내용
1.1) Multi-Modal Learning
Multi-Modal Learning
1. Multi-Modal Learning
: 한 타입의 데이터가 아니라 다른 특성을 가지는 데이터 타입들을 같이 활용하는 학습

하지만 Multi-Modal Learning은 극복해야 할 문제점들이 존재한다.
- 1) 위 그림처럼 각각의 자료의 표현 방법들이 다르다.
- 2) 데이터의 타입에 따라 정보가 표현하는 범위들이 imbalance 하다. (Text의 새 : Image의 새 = 1 : N)
- 3) 학습 시, 다양한 타입의 데이터들을 충분히 고려하지 않고 모델이 학습하기 쉬운 특정 타입의 데이터들만(편중) 학습하고 자칫 다른 타입의 데이터는 학습을 방해하는 요소로 작용할 수 있다. -> May a model be biased on a specific modality
-> 그럼에도 불구하고 Multi-Modal Learning은 중요하고 유용하며 이를 활용하는 일정한 패턴이 있다.
2. Multi-Modal Learning을 활용하는 패턴 3가지

1) Matching
: 공통된 공간(Space)으로 각 타입의 데이터를 Embedding한 벡터를 보내 매칭시킴 (Ex: Image Tagging)
2) Translating
: 하나의 타입 데이터를 다른 타입의 데이터로 변환하여 사용 (Ex: Image Captioning)
3) Referencing
: 서로 다른 타입의 데이터를 참조하는 형식 (Ex: Visual question answering)
3. Multi-Modal Tasks - Visual data & Text
3.1) Image Tagging
: Image Data와 Text (Word)의 같은 Space로의 Embedding 후 유사도 비교 (Matching)



3.2) Image <-> Sequence Data
: Sequence Data와 Image의 비교 (Matching)


3.3) Image Captioning (Image -> Text)

*) Show-And-Tell 방식
: CNN을 거쳐 나온 Feature를 가지고 Text 생성

*) Show-Attention-Tell 방식
: CNN을 거치고 나온 NxN Feature 들을 가지고 각 Attention을 구해 그것을 기반으로 Text 생성



3.4) Text to Image by Generative Model


3.5) Visual question answering - Multi Streams

4. Multi-Modal Tasks - Visual data & Audio
4.1) SoundNet
: Image에 맞는 Audio Data Classification
: CNN 모델은 Pre-trained 된 모델로 학습 시 Freeze
: Audio 부분은 Conv1d 레이어를 사용
: 어느정도 학습이 되면 Audio Model의 중간 레이어에서 Classification 모듈 붙이기

4.2) Speech2Face
: 얼굴 이미지와 음성 데이터를 학습하여 음성(목소리)에 맞는 얼굴 이미지 생성
: Face Recognition, Face Decoder는 Pre-trained Model 사용
: Voice Encoder를 통해 얼굴 이미지 벡터 추출, Face Recognition을 통해 추출된 정답 이미지 벡터 추출
: 두 개의 loss를 통해 학습
: 학습이 다 이루어지면 Pre-trained된 Face Decoder를 통해 생성
: Self-Supervised Learning (비디오는 이미지+음성이므로 데이터 라벨링 작업이 불필요)

4.3) Image-to-Audio
: Image를 Audio로 표현하는 Task
: 3개의 모델이 필요 (Module Networks)
: Image에서 Sub-word units (Not natural language) 추출 -> Speech Audio

4.4) Sound source localization
: 이미지와 사운드 데이터에서 사운드에 맞는 이미지의 위치를 찾는 TASK
1. Fully supervised Learning

2. Unsupervised Learning

3. Semi-supervised Learning

2. 피어 세션
1. 강의 내용에 대한 토의
2. 일주일 총평
3. 다음 주 피어세션 계획
4. 마스터클래스 후 의견 공유
3. Conclusion
수목금 부터 학습량이 상당해져서 사실 모든 것을 이해하기는 벅찼다.
하지만 큰 흐름은 파악하려고 노력했었고. 주말동안 이 흐름을 토대로 중요한 부분에 대해서 더 깊게 생각해봐야 겠다.
주말 동안 해야할 것.
실습, 1주일동안 배운 모델들 List화 해서 중요순으로 Paper 찾아보기.
'부스트캠프 AI Tech > 학습정리' 카테고리의 다른 글
[Day 36] 모델 경량화 - 2 (0) | 2021.03.16 |
---|---|
[Day 35] 모델 경량화 - 1 (0) | 2021.03.15 |
[Day 33] Computer Vision (CV) - 4 (0) | 2021.03.11 |
[Day 32] Computer Vision (CV) - 3 (0) | 2021.03.11 |
[Day 31] Computer Vision (CV) - 2 (0) | 2021.03.09 |
- Total
- Today
- Yesterday
- pandas
- 코딩테스트
- 알고리즘
- 데이터연습
- 프로그래머스
- cnn
- Data Handling
- DeepLearning
- dfs
- 브루트포스
- Unet
- DACON
- C++
- 백준
- 다이나믹프로그래밍
- 데이터핸들링
- Vision AI 경진대회
- 공공데이터
- AI 프로젝트
- 백트래킹
- python
- 네트워킹데이
- 그리디
- NLP 구현
- P-Stage
- 부스트캠프 AI Tech
- ResNet
- 이분탐색
- Unet 구현
- 동적계획법
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |