본문 바로가기
반응형

Computer Vision35

VLM (Vision-Language Model) 기반 Computer Vision 최근 Vision-Language Model (VLM)이 여러 가지 컴퓨터 비전 Task에 적용되어 기술의 패러다임을 바꾸고 있다. VLM은 LMM (Large Multi-modal Model)의 일종으로 Vision과 Language가 결합된 멀티모달 모델 형태다. VLM은 거대한 이미지-텍스트 데이터로부터 학습되어, 시각과 언어 정보를 동시에 다룰 수 있는 모델을 의미한다.1. 기존 컴퓨터비전 모델과 VLM 기반 방법의 차이전통적으로 이미지 인식 모델은 대량의 라벨링된 이미지를 학습하고, 학습된 모델로 추론하는 방식이다. 그러나 VLM은 대규모 이미지-텍스트 pair 데이터를 사전에 학습을 해두고, 이후 별도의 학습 없이도 자연어로 기술된 클래스를 인식하는 제로샷 인식이 가능하다. 이 점은 새로운 객.. 2025. 4. 29.
Multi-Modal 핵심 개념 멀티모달(MultiModal)은 하나의 모델이 두 개 이상 서로 다른 데이터 “모달리티(modality)” {텍스트, 이미지, 음성, 영상, 센서 수치, 코드 등}를 동시에 처리·이해·활용하도록 설계되는 분야이다. 전통적인 “단일 모달” 모델이 이미지만 혹은 텍스트만 다루는 것과 달리, 멀티모달 모델은 서로 보완적인 신호를 결합해 더 풍부한 표현과 추론 능력을 얻을 수 있다. 멀티모달 모델 개발 시 다음과 같은 중요한 5가지 개념이 있다.Representation learningAlignmentTranslationFusionCo-learning위 다섯 개념은 적용되는 Task와 데이터셋에 따라 중요할 수도 있고, 아닐 수도 있다. 1. Representation learningRepresentation은.. 2025. 4. 29.
Vision RAG (VISRAG: Vision-Based Retrieval-Augmented Generation On Multi-Modality Documents) paper : https://arxiv.org/pdf/2410.10594v1 기존의 대부분 RAG(Retrieval-Augmented Generation)는 text 기반으로 설계되어 있어서, 문서에서 중요한 정보인 레이아웃이나 이미지를 제대로 활용할 수 없다는 한계가 있다. VisRAG은 VLM(Vision-Language Model) 기반의 RAG 파이프라인을 통해 문서를 단순히 텍스트로 변환하지 않고 이미지로 임베딩하여 시각적 정보를 더 잘 활용하는 방법을 제안한다.VisRAG은 기존 RAG 방식에서 문서를 텍스트로 파싱하는 과정을 거치지 않으므로, 그 과정에서 발생하는 정보 손실을 최소화하고, 문서를 이미지 형태로 임베딩한 후, 이를 이용해 더 나은 생성 결과를 도출할 수 있도록 하는 구조이다. .. 2025. 4. 17.
Llama 3.2 멀티모달 모델 리서치 https://www.llama.com/ 메타에서 이미지 분석 기능이 포함된 첫 멀티모달 모델인 Llama 3.2 가 공개되었다. 이미지 분석 기능이 포함된 모델은 11B와 90B 모델이다. 그 외에도 텍스트만 처리하는 경량화 모델인 1B, 3B 모델을 같이 공개했다. 메타에서 Llama 3.2 모델 개발을 위해 적용한 요소 기술과 학습 방법은 다음과 같다.Multi-Modal 모델모델 아키텍처의 변화멀티모달 모델인 11B와 90B 모델은 이미지 처리 작업을 처리하기 위해 기존 LLM과 다른 모델 아키텍처를 사용한다. 구체적으로 이미지 입력을 지원하기 위해 pre-training된 이미지 Encoder를 추가로 사용하고, 이것을 pre-training된 언어 모델에 통합하는 Adapter Weights .. 2025. 4. 17.
VIPTR 글자 인식 모델 paper : https://arxiv.org/pdf/2401.10110.pdf 2024년도에 CVPR에 accept된 글자 인식 논문으로, CNN과 여러 self-attention 메커니즘들의 중요한 특성을 활용하여, 계층적 vision transformer에서 영감을 받은 아키텍처를 통해 글자 인식을 위한 고성능 네트워크의 패러다임을 제안한 논문.현재 가장 높은 성능을 보이고 있는 모델들은 주로 visual encoder와 sequence decoder를 결합한 하이브리드 아키텍처에 의존하고 있지만, 이러한 구조는 추론 효율성이 낮다는 단점이 있다. 이 논문에서는 전통적인 sequence 디코더를 사용하지 않고, 대신 여러 self-attention 계층을 특징으로 하는 피라미드 구조의 visual-.. 2025. 4. 17.
A Hybrid Approach for Document Layout Analysis in Document images 논문 리딩 논문 제목은 A Hybrid Approach for Document Layout Analysis in Document images로 문서 레이아웃 분석을 위해 개선된 Transformer 기반의 Detection 방법을 통해 높은 성능을 달성한 논문이다.contribution은 다음과 같다.1. backbone으로부터 high-level의 query feature를 얻기 위한 개선된 Query Encoding Mechanism과 Query-Selection Strategies를 사용한다.2. decoder의 one-to-one matching 전략과 one-to-many matching 전략을 혼합하는 query selection 방법을 사용한다. Methodology4 단계로 구분할 수 있다.(1) 먼.. 2024. 7. 5.
반응형