구글에서 MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering 라는 논문을 발표 했다. 표나 차트 같은 이미지가 주어졌을 때 이것을 디렌더링하고 수학적 추론을 기반으로 필요한 정보를 얻어내는 기술이다. google-blog에서 자세한 내용을 확인할 수 있다. PlotQA와 ChartQA 데이터셋에서 이전 방법보다 성능이 대략 20% 가량 뛰어나다고 한다.
논문에서는 최근에 제안된 image-to-text visual language 모델인 pix2struct 를 기반으로 pre-training했다고 한다.
논문에서 이야기하는 핵심은 Chart Derendering과 Math Reasoning 두 가지이다.
Chart Derendering 단계에서는 차트를 이해하기위해 이미지에서 시각적 패턴을 발견하고 효과적으로 구문을 분석하고 그룹화하여 주요 정보를 추출한다. 사전 학습 데이터로 (chart, code) 및 (chart, table) 쌍을 수집해서 사용했다고 한다. 데이터를 합성해서 만들기도하고, 웹 크롤링을 통해서 학습 데이터를 만들었다고 한다.
Math Reasoning 단계에서는 pre-training을 위해서 두 개의 기존 text math 추론 데이터 세트인 MATH와 DROP을 사용한다. 실제로 두 데이터 세트의 입력을 이미지로 렌더링하고 모델은 답을 decode하도록 학습한다.
결국 차트 이미지가 주어지면 data table과 code를 예측하고, 질문을 이해하기위해 image-to-text Transformer 모델을 사용해서 학습을 한것이다.
논문에서 제시한 방법은 새로운 알고리즘을 제안했다기보다는 데이터셋 수집 방법, 학습 데이터 구조와 Transformer 기반의 pre-training을 통해서 높은 성능을 이끌어냈다고 한다. 논문에서 다른 방법들과 성능을 비교했는데 실제로 차이가 많이 난다.
요즘 vision과 language 기술을 섞어쓰는 경우가 많은것 같다. Multi Modal 알고리즘에 관한 논문이 자주 보인다. 전혀 다른 task에서 쓰는 기술도 다른 응용분야에서 쓰이기도하고... 너무 한 분야에 특정짓지않고 다양한 기술에 대한 이해가 필요한듯하다.
'Computer Vision' 카테고리의 다른 글
Text Detection : Real-time Scene Text Detection with Differentiable Binarization 논문 리뷰 (0) | 2023.06.09 |
---|---|
Semantic Segmentation 개요:개체 영역 식별에 대한 소개 및 주요 문제 (0) | 2023.06.08 |
Image Detection Transformer (DETR) (0) | 2023.05.26 |
Vision Transformer (0) | 2023.05.23 |
Text Detection : Arbitrary Shape Text Detection via Boundary Transformer (TextBPN++) 논문 리뷰 (0) | 2023.05.23 |