본문 바로가기
Computer Vision

A Hybrid Approach for Document Layout Analysis in Document images 논문 리딩

by pnnote 2024. 7. 5.
반응형

 

논문 제목은 A Hybrid Approach for Document Layout Analysis in Document images로 문서 레이아웃 분석을 위해 개선된 Transformer 기반의 Detection 방법을 통해 높은 성능을 달성한 논문이다.

contribution은 다음과 같다.

1. backbone으로부터 high-level의 query feature를 얻기 위한 개선된 Query Encoding Mechanism과 Query-Selection Strategies를 사용한다.

2. decoder의 one-to-one matching 전략과 one-to-many matching 전략을 혼합하는 query selection 방법을 사용한다.

 

Methodology

4 단계로 구분할 수 있다.

(1) 먼저 CNN backbone으로부터 multi-scale feature를 추출한다.

(2) 두번째로 Transformer 모델을 활용하여 시각적 요소(titles, figures, tables, text)를 Detection한다.

(3) 세번째로 model의 decoder 단계를 최적화하는 개선된 query encoding mechanism을 사용한다.

(4) 네번째로 decoder의 one-to-one matching과 one-to-many matching을 혼합하여 사용하는 특별한 query selection 방식을 사용한다.

이 네가지 단계는 end-to-end로 수행된다.

 

그림 1. Architecture

 

(1) Backbone Multi-scale Features Network

H×W×3 의 이미지를 ResNet-50 backbone에 통과하여 feature map을 추출한다. 여기서 feature map resolution은 원본 사이즈의  1/4, 1/8, 1/16, 1/32, 1/64로 추출한다. 각 feature map은 1x1 convolution을 사용하여 채널 수를 줄인다. 이렇게 256 채널로 만들고, 이것을 transformer detection 모듈의 input으로 사용한다.

 

(2) Document Layout Analysis with the transformer Framework

Transformer 기반의 Detection 방법의 장점은 별도의  anchor generation이나 NMS 과정이 필요 없다. 이 논문에서는 DINO라는 Transformer기반의 Detection 방법을 사용한다. encoder에서는 CNN으로부터 구해진 다양한 scale의 feature map을 처리하고 decoder는 결과는 생성한다. encoder는 문서 구성요소 검출을 위한 객체 요소의 proposal을 생성한다고 볼 수 있고, decoder는 self attention과 cross attention에 deformable attention 메커니즘을 사용하여 효율을 높인다. 또한 object query를 위해 contrastive denoising을 적용한다. 이것은 모델 학습을 더 빠르게 하도록 돕는다.

 

여기서 object query는 Transformer 기반 object detection 모델이 이미지에서 객체를 검출하기 위해 사용하는 학습 가능한 벡터들이다. 이 query들은 모델이 어떤 객체를 검출할지에 대한 정보를 제공하며, 학습 과정에서 최적화되어 더 정확한 탐지가 가능하게 한다.

 

(3)  Query Encoding Strategy

작은 객체에 대한 검출 정확도를 향상시키기 위해 backbone query feature와 decoder original query를 결합하는 query 메커니즘을 사용한다. 이 방식으로 high-quality의 object query를 만든다.

 

High-level Query Features from Backbone

 

 

Combining Features for Enhanced Detection

 

 

Integration with Decoder’s Original Queries

 

 

 

(4) Query Selection Strategy

 

 

반응형