[Day 34] Computer Vision (CV)

티스토리 뷰

부스트캠프 AI Tech/학습정리

[Day 34] Computer Vision (CV) - 5

dev.hunmin 2021. 3. 12. 22:22

728x90

[Day 34] Computer Vision (CV) - 5

1. 강의 복습 내용

1.1) Multi-Modal Learning

Multi-Modal Learning

1. Multi-Modal Learning

: 한 타입의 데이터가 아니라 다른 특성을 가지는 데이터 타입들을 같이 활용하는 학습

하지만 Multi-Modal Learning은 극복해야 할 문제점들이 존재한다.

1) 위 그림처럼 각각의 자료의 표현 방법들이 다르다.
2) 데이터의 타입에 따라 정보가 표현하는 범위들이 imbalance 하다. (Text의 새 : Image의 새 = 1 : N)
3) 학습 시, 다양한 타입의 데이터들을 충분히 고려하지 않고 모델이 학습하기 쉬운 특정 타입의 데이터들만(편중) 학습하고 자칫 다른 타입의 데이터는 학습을 방해하는 요소로 작용할 수 있다. -> May a model be biased on a specific modality

-> 그럼에도 불구하고 Multi-Modal Learning은 중요하고 유용하며 이를 활용하는 일정한 패턴이 있다.

2. Multi-Modal Learning을 활용하는 패턴 3가지

Multi-Modal Learning을 활용한 Task를 처리하는 것의 일정한 3가지 패턴이 존재

1) Matching

: 공통된 공간(Space)으로 각 타입의 데이터를 Embedding한 벡터를 보내 매칭시킴 (Ex: Image Tagging)

2) Translating

: 하나의 타입 데이터를 다른 타입의 데이터로 변환하여 사용 (Ex: Image Captioning)

3) Referencing

: 서로 다른 타입의 데이터를 참조하는 형식 (Ex: Visual question answering)

3. Multi-Modal Tasks - Visual data & Text

3.1) Image Tagging

: Image Data와 Text (Word)의 같은 Space로의 Embedding 후 유사도 비교 (Matching)

3.2) Image <-> Sequence Data

: Sequence Data와 Image의 비교 (Matching)

3.3) Image Captioning (Image -> Text)

*) Show-And-Tell 방식

: CNN을 거쳐 나온 Feature를 가지고 Text 생성

*) Show-Attention-Tell 방식

: CNN을 거치고 나온 NxN Feature 들을 가지고 각 Attention을 구해 그것을 기반으로 Text 생성

3.4) Text to Image by Generative Model

3.5) Visual question answering - Multi Streams

4. Multi-Modal Tasks - Visual data & Audio

4.1) SoundNet

: Image에 맞는 Audio Data Classification

: CNN 모델은 Pre-trained 된 모델로 학습 시 Freeze

: Audio 부분은 Conv1d 레이어를 사용

: 어느정도 학습이 되면 Audio Model의 중간 레이어에서 Classification 모듈 붙이기

4.2) Speech2Face

: 얼굴 이미지와 음성 데이터를 학습하여 음성(목소리)에 맞는 얼굴 이미지 생성

: Face Recognition, Face Decoder는 Pre-trained Model 사용

: Voice Encoder를 통해 얼굴 이미지 벡터 추출, Face Recognition을 통해 추출된 정답 이미지 벡터 추출

: 두 개의 loss를 통해 학습

: 학습이 다 이루어지면 Pre-trained된 Face Decoder를 통해 생성

: Self-Supervised Learning (비디오는 이미지+음성이므로 데이터 라벨링 작업이 불필요)

4.3) Image-to-Audio

: Image를 Audio로 표현하는 Task

: 3개의 모델이 필요 (Module Networks)

: Image에서 Sub-word units (Not natural language) 추출 -> Speech Audio

4.4) Sound source localization

: 이미지와 사운드 데이터에서 사운드에 맞는 이미지의 위치를 찾는 TASK

1. Fully supervised Learning

2. Unsupervised Learning

3. Semi-supervised Learning

2. 피어 세션

1. 강의 내용에 대한 토의

2. 일주일 총평

3. 다음 주 피어세션 계획

4. 마스터클래스 후 의견 공유

3. Conclusion

수목금 부터 학습량이 상당해져서 사실 모든 것을 이해하기는 벅찼다.

하지만 큰 흐름은 파악하려고 노력했었고. 주말동안 이 흐름을 토대로 중요한 부분에 대해서 더 깊게 생각해봐야 겠다.

주말 동안 해야할 것.

실습, 1주일동안 배운 모델들 List화 해서 중요순으로 Paper 찾아보기.

'부스트캠프 AI Tech > 학습정리' 카테고리의 다른 글

[Day 36] 모델 경량화 - 2 (0)	2021.03.16
[Day 35] 모델 경량화 - 1 (0)	2021.03.15
[Day 33] Computer Vision (CV) - 4 (0)	2021.03.11
[Day 32] Computer Vision (CV) - 3 (0)	2021.03.11
[Day 31] Computer Vision (CV) - 2 (0)	2021.03.09

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

Github

TAG more

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

dev-hunmin

티스토리 뷰

[Day 34] Computer Vision (CV) - 5

[Day 34] Computer Vision (CV) - 5

1. 강의 복습 내용

1.1) Multi-Modal Learning

Multi-Modal Learning

1. Multi-Modal Learning

2. Multi-Modal Learning을 활용하는 패턴 3가지

1) Matching

2) Translating

3) Referencing

3. Multi-Modal Tasks - Visual data & Text

3.1) Image Tagging

3.2) Image <-> Sequence Data

3.3) Image Captioning (Image -> Text)

3.4) Text to Image by Generative Model

3.5) Visual question answering - Multi Streams

4. Multi-Modal Tasks - Visual data & Audio

4.1) SoundNet

4.2) Speech2Face

4.3) Image-to-Audio

4.4) Sound source localization

1. Fully supervised Learning

2. Unsupervised Learning

3. Semi-supervised Learning

2. 피어 세션

3. Conclusion

'부스트캠프 AI Tech > 학습정리' 카테고리의 다른 글

티스토리툴바