본문 바로가기
Computer Vision

MatCha - 차트 vision-language 추론 모델

by pnnote 2023. 5. 30.
반응형

구글에서 MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering 라는 논문을 발표 했다. 표나 차트 같은 이미지가 주어졌을 때 이것을 디렌더링하고 수학적 추론을 기반으로 필요한 정보를 얻어내는 기술이다. google-blog에서 자세한 내용을 확인할 수 있다. PlotQA와 ChartQA 데이터셋에서 이전 방법보다 성능이 대략 20% 가량 뛰어나다고 한다.

논문에서는 최근에 제안된 image-to-text visual language 모델인 pix2struct 를 기반으로 pre-training했다고 한다. 

 

MatCha는 차트 디렌더링(파란색) 과 수학적 추론(빨간색) 두 가지 pre-training task를 정의했다. 차트 디렌더링에서는 차트가 주어지면 렌더링 코드나 데이터 테이블을 디코딩하고, 수학적 추론에서는 이미지로 렌더링된 질문이 주어지면 모델은 답을 해독한다. 차트 디렌더링에서는 숫자 추출이나 구성같은 레이아웃을 이해하는데 중점을 두고 수학적 추론은 모델의 수치 추론 기능을 파악한다.

 

논문에서 이야기하는 핵심은 Chart Derendering과 Math Reasoning 두 가지이다. 

Chart Derendering 단계에서는 차트를 이해하기위해 이미지에서 시각적 패턴을 발견하고 효과적으로 구문을 분석하고 그룹화하여 주요 정보를 추출한다. 사전 학습 데이터로 (chart, code) 및 (chart, table) 쌍을 수집해서 사용했다고 한다. 데이터를 합성해서 만들기도하고, 웹 크롤링을 통해서 학습 데이터를 만들었다고 한다.

Math Reasoning 단계에서는 pre-training을 위해서 두 개의 기존 text math 추론 데이터 세트인 MATH와 DROP을 사용한다. 실제로 두 데이터 세트의 입력을 이미지로 렌더링하고 모델은 답을 decode하도록 학습한다.

결국 차트 이미지가 주어지면 data table과 code를 예측하고, 질문을 이해하기위해 image-to-text Transformer 모델을 사용해서 학습을 한것이다.

논문에서 제시한 방법은 새로운 알고리즘을 제안했다기보다는 데이터셋 수집 방법, 학습 데이터 구조와 Transformer 기반의 pre-training을 통해서 높은 성능을 이끌어냈다고 한다. 논문에서 다른 방법들과 성능을 비교했는데 실제로 차이가 많이 난다.

실험 결과

 

 

요즘 vision과 language 기술을 섞어쓰는 경우가 많은것 같다. Multi Modal 알고리즘에 관한 논문이 자주 보인다. 전혀 다른 task에서 쓰는 기술도 다른 응용분야에서 쓰이기도하고... 너무 한 분야에 특정짓지않고 다양한 기술에 대한 이해가 필요한듯하다. 

 

 

반응형