반응형 분류 전체보기77 VLM (Vision-Language Model) 기반 Computer Vision 최근 Vision-Language Model (VLM)이 여러 가지 컴퓨터 비전 Task에 적용되어 기술의 패러다임을 바꾸고 있다. VLM은 LMM (Large Multi-modal Model)의 일종으로 Vision과 Language가 결합된 멀티모달 모델 형태다. VLM은 거대한 이미지-텍스트 데이터로부터 학습되어, 시각과 언어 정보를 동시에 다룰 수 있는 모델을 의미한다.1. 기존 컴퓨터비전 모델과 VLM 기반 방법의 차이전통적으로 이미지 인식 모델은 대량의 라벨링된 이미지를 학습하고, 학습된 모델로 추론하는 방식이다. 그러나 VLM은 대규모 이미지-텍스트 pair 데이터를 사전에 학습을 해두고, 이후 별도의 학습 없이도 자연어로 기술된 클래스를 인식하는 제로샷 인식이 가능하다. 이 점은 새로운 객.. 2025. 4. 29. Multi-Modal 핵심 개념 멀티모달(MultiModal)은 하나의 모델이 두 개 이상 서로 다른 데이터 “모달리티(modality)” {텍스트, 이미지, 음성, 영상, 센서 수치, 코드 등}를 동시에 처리·이해·활용하도록 설계되는 분야이다. 전통적인 “단일 모달” 모델이 이미지만 혹은 텍스트만 다루는 것과 달리, 멀티모달 모델은 서로 보완적인 신호를 결합해 더 풍부한 표현과 추론 능력을 얻을 수 있다. 멀티모달 모델 개발 시 다음과 같은 중요한 5가지 개념이 있다.Representation learningAlignmentTranslationFusionCo-learning위 다섯 개념은 적용되는 Task와 데이터셋에 따라 중요할 수도 있고, 아닐 수도 있다. 1. Representation learningRepresentation은.. 2025. 4. 29. Vision RAG (VISRAG: Vision-Based Retrieval-Augmented Generation On Multi-Modality Documents) paper : https://arxiv.org/pdf/2410.10594v1 기존의 대부분 RAG(Retrieval-Augmented Generation)는 text 기반으로 설계되어 있어서, 문서에서 중요한 정보인 레이아웃이나 이미지를 제대로 활용할 수 없다는 한계가 있다. VisRAG은 VLM(Vision-Language Model) 기반의 RAG 파이프라인을 통해 문서를 단순히 텍스트로 변환하지 않고 이미지로 임베딩하여 시각적 정보를 더 잘 활용하는 방법을 제안한다.VisRAG은 기존 RAG 방식에서 문서를 텍스트로 파싱하는 과정을 거치지 않으므로, 그 과정에서 발생하는 정보 손실을 최소화하고, 문서를 이미지 형태로 임베딩한 후, 이를 이용해 더 나은 생성 결과를 도출할 수 있도록 하는 구조이다. .. 2025. 4. 17. Llama 3.2 멀티모달 모델 리서치 https://www.llama.com/ 메타에서 이미지 분석 기능이 포함된 첫 멀티모달 모델인 Llama 3.2 가 공개되었다. 이미지 분석 기능이 포함된 모델은 11B와 90B 모델이다. 그 외에도 텍스트만 처리하는 경량화 모델인 1B, 3B 모델을 같이 공개했다. 메타에서 Llama 3.2 모델 개발을 위해 적용한 요소 기술과 학습 방법은 다음과 같다.Multi-Modal 모델모델 아키텍처의 변화멀티모달 모델인 11B와 90B 모델은 이미지 처리 작업을 처리하기 위해 기존 LLM과 다른 모델 아키텍처를 사용한다. 구체적으로 이미지 입력을 지원하기 위해 pre-training된 이미지 Encoder를 추가로 사용하고, 이것을 pre-training된 언어 모델에 통합하는 Adapter Weights .. 2025. 4. 17. VIPTR 글자 인식 모델 paper : https://arxiv.org/pdf/2401.10110.pdf 2024년도에 CVPR에 accept된 글자 인식 논문으로, CNN과 여러 self-attention 메커니즘들의 중요한 특성을 활용하여, 계층적 vision transformer에서 영감을 받은 아키텍처를 통해 글자 인식을 위한 고성능 네트워크의 패러다임을 제안한 논문.현재 가장 높은 성능을 보이고 있는 모델들은 주로 visual encoder와 sequence decoder를 결합한 하이브리드 아키텍처에 의존하고 있지만, 이러한 구조는 추론 효율성이 낮다는 단점이 있다. 이 논문에서는 전통적인 sequence 디코더를 사용하지 않고, 대신 여러 self-attention 계층을 특징으로 하는 피라미드 구조의 visual-.. 2025. 4. 17. 허깅페이스 Transformers 라이브러리 허깅페이스의 Transformers 라이브러리는 Transformer 구조 기반의 다양한 모델을 지원하여 개발에 활용할 수 있다. pre-training된 모델도 지원하기 때문에 모델을 처음부터 학습 시킬 필요가 없어 시간과 리소스를 절약할 수 있다. 초기에는 자연어처리 관련 모델 위주로 지원했지만 현재는 여러 가지 도메인에 대한 모델을 지원한다. 2024년 기준 157개의 모델 아키텍처를 지원하고 있다. 또한 모델에 들어가는 컴포넌트를 모듈화해서 제공하기도 한다.Transformers 라이브러리는 pip를 통해 설치할 수 있다.pip install transformersPipeline을 이용한 간단한 사용법Transformers에서 가장 간단하게 사용할 수 있는 방법은 pipeline API이다. pi.. 2025. 4. 17. 이전 1 2 3 4 ··· 13 다음 반응형