멀티모달(MultiModal)은 하나의 모델이 두 개 이상 서로 다른 데이터 “모달리티(modality)” {텍스트, 이미지, 음성, 영상, 센서 수치, 코드 등}를 동시에 처리·이해·활용하도록 설계되는 분야이다. 전통적인 “단일 모달” 모델이 이미지만 혹은 텍스트만 다루는 것과 달리, 멀티모달 모델은 서로 보완적인 신호를 결합해 더 풍부한 표현과 추론 능력을 얻을 수 있다.
멀티모달 모델 개발 시 다음과 같은 중요한 5가지 개념이 있다.
- Representation learning
- Alignment
- Translation
- Fusion
- Co-learning
위 다섯 개념은 적용되는 Task와 데이터셋에 따라 중요할 수도 있고, 아닐 수도 있다.
1. Representation learning
Representation은 모든 모달을 기계가 이해할 수 있는 잠재 공간으로 인코딩하는 표현 방식을 의미한다.
즉, 멀티모달에서 representation learning은 서로 다른 형태(텍스트·음성·이미지·센서 등)의 데이터를 기계가 이해하기 쉬운 잠재 공간(latent space) 으로 변환하는 것으로 볼 수 있다.
2. Alignment
Alignment는 서로 다른 모달리티의 요소를 의미적/시간 축으로 짝짓는 과정이다.
시간 정렬(temporal alignment) : 비디오-오디오 동기화, 말소리와 입 모양 매칭(음성-영상) 등. DTW, CTC, 모달리티-간 Attention이 자주 쓰인다.
구조/semantic alignment : 이미지 영역 ↔ 텍스트 토큰(ViLT, Oscar) 같은 region-word 혹은 프레임-문장 매핑. Cross-attention에서 얻은 soft-alignment 스코어를 정합 손실로 삼는다.
Alignment가 잘 되면 fine-grained 검색, 모달 간 전송(translation) 품질, 상호 설명 가능성이 크게 개선된다.
3. Translation
translation은 한 모달리티를 다른 모달리티로 변환하는 생성 작업이다.
고전적인 예로는 음성↔텍스트(ASR, TTS) 변환, image captioning(이미지→문장), 기계통역(음성→텍스트→음성) 등이 있고, 최근에는 더 다양한 모달리티 텍스트→이미지/비디오(Stable Diffusion, DALL·E-3, Gemini-Vision)와 텍스트→3D/음악 등으로 확장하여 연구되고 있다.
4. Fusion
Fusion은 여러 모달리티의 정보를 합쳐 단일 추론을 내는 과정이다.
방식 | Description | 장점 | 단점 |
Early Fusion | 모달리티를 인코딩한 직후 벡터를 concat/교차어텐션 등을 통해 빠른타이밍에 Fusion하는 방식 | 모달 간 상호작용을 초기에 학습 | 차원이 크고, 노이즈가 전달될 수있음 |
Late Fusion | 모달별 모델을 거치고 나온 후에 로짓/확률을 앙상블하여 Fusion하는 방식 | 각 모달 독립 최적화 | 상호작용 학습이 어려울 수 있음 |
Hybrid / Inter-mediate Fusion | 계층별로 반복적 cross-attention, gating, FiLM, Bilinear pooling 등을 적용하는 방식 | 표현·상호작용 균형 | 구조 복잡, 메모리 사용량 큼 |
5. Co-learning
Co-learning은 한 모달리티가 부족하거나 결측일 때 다른 모달리티의 지식을 이용해 학습을 강화·보완하는 방식이다.
교차 지식 증류(cross-modal distillation) : 텍스트 라벨이 풍부한 언어 모델→비디오 모델로 soft-target을 전달.
co-training / self-training: 각 모달 모델이 pseudo-label을 생성해 서로 학습 데이터를 늘림.
모달리티 대체(imputation): 누락 모달을 VAE·GAN·diffusion으로 재생성해 다운스트림 모델에 공급.
* 멀티모달 모델은 위 다섯 과정을 반복·상호작용적으로 사용하게 된다.
예를 들어 text to image 생성에는 (1) 텍스트 representation 학습 -> (2) 텍스트-이미지 alignment -> (3) translation(생성) -> (4) 생성된 이미지와 텍스트의 joint fusion으로 재순환 -> (5) 일부 모달 부재 시 co-learning 으로 보강 식의 파이프라인이 적용된다. 이 구조를 이해하면 새로운 모달, Task에 맞춰 모듈 단위로 설계/교체하기가 쉬워진다.
'Computer Vision' 카테고리의 다른 글
VLM (Vision-Language Model) 기반 Computer Vision (0) | 2025.04.29 |
---|---|
Vision RAG (VISRAG: Vision-Based Retrieval-Augmented Generation On Multi-Modality Documents) (0) | 2025.04.17 |
Llama 3.2 멀티모달 모델 리서치 (0) | 2025.04.17 |
VIPTR 글자 인식 모델 (0) | 2025.04.17 |
A Hybrid Approach for Document Layout Analysis in Document images 논문 리딩 (0) | 2024.07.05 |