반응형 분류 전체보기76 Multi-Modal 핵심 개념 멀티모달(MultiModal)은 하나의 모델이 두 개 이상 서로 다른 데이터 “모달리티(modality)” {텍스트, 이미지, 음성, 영상, 센서 수치, 코드 등}를 동시에 처리·이해·활용하도록 설계되는 분야이다. 전통적인 “단일 모달” 모델이 이미지만 혹은 텍스트만 다루는 것과 달리, 멀티모달 모델은 서로 보완적인 신호를 결합해 더 풍부한 표현과 추론 능력을 얻을 수 있다. 멀티모달 모델 개발 시 다음과 같은 중요한 5가지 개념이 있다.Representation learningAlignmentTranslationFusionCo-learning위 다섯 개념은 적용되는 Task와 데이터셋에 따라 중요할 수도 있고, 아닐 수도 있다. 1. Representation learningRepresentation은.. 2025. 4. 29. Vision RAG (VISRAG: Vision-Based Retrieval-Augmented Generation On Multi-Modality Documents) paper : https://arxiv.org/pdf/2410.10594v1 기존의 대부분 RAG(Retrieval-Augmented Generation)는 text 기반으로 설계되어 있어서, 문서에서 중요한 정보인 레이아웃이나 이미지를 제대로 활용할 수 없다는 한계가 있다. VisRAG은 VLM(Vision-Language Model) 기반의 RAG 파이프라인을 통해 문서를 단순히 텍스트로 변환하지 않고 이미지로 임베딩하여 시각적 정보를 더 잘 활용하는 방법을 제안한다.VisRAG은 기존 RAG 방식에서 문서를 텍스트로 파싱하는 과정을 거치지 않으므로, 그 과정에서 발생하는 정보 손실을 최소화하고, 문서를 이미지 형태로 임베딩한 후, 이를 이용해 더 나은 생성 결과를 도출할 수 있도록 하는 구조이다. .. 2025. 4. 17. Llama 3.2 멀티모달 모델 리서치 https://www.llama.com/ 메타에서 이미지 분석 기능이 포함된 첫 멀티모달 모델인 Llama 3.2 가 공개되었다. 이미지 분석 기능이 포함된 모델은 11B와 90B 모델이다. 그 외에도 텍스트만 처리하는 경량화 모델인 1B, 3B 모델을 같이 공개했다. 메타에서 Llama 3.2 모델 개발을 위해 적용한 요소 기술과 학습 방법은 다음과 같다.Multi-Modal 모델모델 아키텍처의 변화멀티모달 모델인 11B와 90B 모델은 이미지 처리 작업을 처리하기 위해 기존 LLM과 다른 모델 아키텍처를 사용한다. 구체적으로 이미지 입력을 지원하기 위해 pre-training된 이미지 Encoder를 추가로 사용하고, 이것을 pre-training된 언어 모델에 통합하는 Adapter Weights .. 2025. 4. 17. VIPTR 글자 인식 모델 paper : https://arxiv.org/pdf/2401.10110.pdf 2024년도에 CVPR에 accept된 글자 인식 논문으로, CNN과 여러 self-attention 메커니즘들의 중요한 특성을 활용하여, 계층적 vision transformer에서 영감을 받은 아키텍처를 통해 글자 인식을 위한 고성능 네트워크의 패러다임을 제안한 논문.현재 가장 높은 성능을 보이고 있는 모델들은 주로 visual encoder와 sequence decoder를 결합한 하이브리드 아키텍처에 의존하고 있지만, 이러한 구조는 추론 효율성이 낮다는 단점이 있다. 이 논문에서는 전통적인 sequence 디코더를 사용하지 않고, 대신 여러 self-attention 계층을 특징으로 하는 피라미드 구조의 visual-.. 2025. 4. 17. 허깅페이스 Transformers 라이브러리 허깅페이스의 Transformers 라이브러리는 Transformer 구조 기반의 다양한 모델을 지원하여 개발에 활용할 수 있다. pre-training된 모델도 지원하기 때문에 모델을 처음부터 학습 시킬 필요가 없어 시간과 리소스를 절약할 수 있다. 초기에는 자연어처리 관련 모델 위주로 지원했지만 현재는 여러 가지 도메인에 대한 모델을 지원한다. 2024년 기준 157개의 모델 아키텍처를 지원하고 있다. 또한 모델에 들어가는 컴포넌트를 모듈화해서 제공하기도 한다.Transformers 라이브러리는 pip를 통해 설치할 수 있다.pip install transformersPipeline을 이용한 간단한 사용법Transformers에서 가장 간단하게 사용할 수 있는 방법은 pipeline API이다. pi.. 2025. 4. 17. 한국어 자연어처리 방법 한국어는 어휘, 문법 구조, 형태소 체계 등의 측면에서 영어나 다른 언어와 구별되는 독특한 특성을 가지고 있다. 따라서 한국어 자연어처리(NLP)를 수행할 때는 영어에 비해 조금 더 고려해야할 사항이 많다. 한국어 자연어처리의 어려움한국어는 교착어로 형태소 분석기가 필요영어에 비해 띄어쓰기가 잘 지켜지지 않음어순이 그렇게 중요하지 않음한자어라는 특성상 하나의 음절도 다른 의미를 가질 수 있음주어가 쉽게 생략됨데이터와 언어에 특화된 모델이 영어에 비해 부족교착어인 한국어의 특성으로 인해 한국어는 Tokenizer(토크나이저)로 형태소 분석기를 사용하는 것이 보편적이다. 다양한 형태소 분석기가 존재하므로 원하는 Task에 따라 맞는 형태소 분석기를 선택할 수 있다. 또 text를 어떻게 단위별로 나누어 처리.. 2025. 4. 15. 이전 1 2 3 4 ··· 13 다음 반응형