티스토리 뷰

728x90

[Day 34] Computer Vision (CV) - 5

 

 

 

1. 강의 복습 내용

1.1) Multi-Modal Learning

더보기

Multi-Modal Learning

 

 

1. Multi-Modal Learning

: 한 타입의 데이터가 아니라 다른 특성을 가지는 데이터 타입들을 같이 활용하는 학습

각각의 타입의 데이터는 표현하는 방법들이 다르다

하지만 Multi-Modal Learning은 극복해야 할 문제점들이 존재한다.

  • 1) 위 그림처럼 각각의 자료의 표현 방법들이 다르다. 
  • 2) 데이터의 타입에 따라 정보가 표현하는 범위들이 imbalance 하다. (Text의 새 : Image의 새 = 1 : N)
  • 3) 학습 시, 다양한 타입의 데이터들을 충분히 고려하지 않고 모델이 학습하기 쉬운 특정 타입의 데이터들만(편중) 학습하고 자칫 다른 타입의 데이터는 학습을 방해하는 요소로 작용할 수 있다. -> May a model be biased on a specific modality

-> 그럼에도 불구하고 Multi-Modal Learning은 중요하고 유용하며 이를 활용하는 일정한 패턴이 있다.


2. Multi-Modal Learning을 활용하는 패턴 3가지

Multi-Modal Learning을 활용한 Task를 처리하는 것의 일정한 3가지 패턴이 존재

1) Matching

: 공통된 공간(Space)으로 각 타입의 데이터를 Embedding한 벡터를 보내 매칭시킴 (Ex: Image Tagging)

2) Translating

: 하나의 타입 데이터를 다른 타입의 데이터로 변환하여 사용 (Ex: Image Captioning)

3) Referencing

: 서로 다른 타입의 데이터를 참조하는 형식 (Ex: Visual question answering)


3. Multi-Modal Tasks - Visual data & Text

3.1) Image Tagging

: Image Data와 Text (Word)의 같은 Space로의 Embedding 후 유사도 비교 (Matching)

 

3.2) Image <-> Sequence Data

: Sequence Data와 Image의 비교 (Matching)

 

3.3) Image Captioning (Image -> Text)

*) Show-And-Tell 방식

: CNN을 거쳐 나온 Feature를 가지고 Text 생성

*) Show-Attention-Tell 방식

: CNN을 거치고 나온 NxN Feature 들을 가지고 각 Attention을 구해 그것을 기반으로 Text 생성

 

3.4) Text to Image by Generative Model

 

3.5) Visual question answering - Multi Streams


4. Multi-Modal Tasks - Visual data & Audio

4.1) SoundNet

: Image에 맞는 Audio Data Classification

: CNN 모델은 Pre-trained 된 모델로 학습 시 Freeze

: Audio 부분은 Conv1d 레이어를 사용

: 어느정도 학습이 되면 Audio Model의 중간 레이어에서 Classification 모듈 붙이기

 

4.2) Speech2Face

: 얼굴 이미지와 음성 데이터를 학습하여 음성(목소리)에 맞는 얼굴 이미지 생성

: Face Recognition, Face Decoder는 Pre-trained Model 사용

: Voice Encoder를 통해 얼굴 이미지 벡터 추출, Face Recognition을 통해 추출된 정답 이미지 벡터 추출

: 두 개의 loss를 통해 학습

: 학습이 다 이루어지면 Pre-trained된 Face Decoder를 통해 생성

: Self-Supervised Learning (비디오는 이미지+음성이므로 데이터 라벨링 작업이 불필요)

 

4.3) Image-to-Audio

: Image를 Audio로 표현하는 Task

: 3개의 모델이 필요 (Module Networks)

: Image에서 Sub-word units (Not natural language) 추출 -> Speech Audio

 

4.4) Sound source localization

: 이미지와 사운드 데이터에서 사운드에 맞는 이미지의 위치를 찾는 TASK

1. Fully supervised Learning

2. Unsupervised Learning

3. Semi-supervised Learning


2. 피어 세션

더보기

1. 강의 내용에 대한 토의

2. 일주일 총평

3. 다음 주 피어세션 계획

4. 마스터클래스 후 의견 공유


3. Conclusion

더보기

수목금 부터 학습량이 상당해져서 사실 모든 것을 이해하기는 벅찼다.

하지만 큰 흐름은 파악하려고 노력했었고. 주말동안 이 흐름을 토대로 중요한 부분에 대해서 더 깊게 생각해봐야 겠다.

 

주말 동안 해야할 것.

실습, 1주일동안 배운 모델들 List화 해서 중요순으로 Paper 찾아보기.


'부스트캠프 AI Tech > 학습정리' 카테고리의 다른 글

[Day 36] 모델 경량화 - 2  (0) 2021.03.16
[Day 35] 모델 경량화 - 1  (0) 2021.03.15
[Day 33] Computer Vision (CV) - 4  (0) 2021.03.11
[Day 32] Computer Vision (CV) - 3  (0) 2021.03.11
[Day 31] Computer Vision (CV) - 2  (0) 2021.03.09
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/04   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함