2022년 말에 공개된 Text Detection 방법인 DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in Transformer[1] 논문에 대한 리뷰다. DPText는 Transformer를 이용한 방법이고, Dynamic Points 로 휘어진 글자를 검출할 수 있으며 성능이 아주 좋다고 한다.
논문에서 제안하는 핵심 키포인트는 prior points를 sampling하고 update할 수 있는 Explicit Point Query Modeling(EPQM) 방법과 Enhanced Factorized Self-Attention (EFSA) module이다.
모델의 Architecture는 그림 1과 같다. CNN backbone과 Transformer Encoder-Decoder로 이루어져있다. Explicit points는 Prior Points Sampling을 통해 계산되고 positional queries로 인코딩한다. point 좌표는 점진적으로 정제되어 polygon 형태로 예측된다.
Positional Label Form
데이터를 라벨링할 때 일반적으로 사용되는 형태는 그림 2의 (b)와 같다. 사람은 보통 녹색 Start 지점부터 시작해서 빨간 End 지점으로 가는 순서대로 글을 읽는다. 하지만 이 방식은 Detector가 암암리에 이 순서를 학습해버리게 되어 학습중 글자 순서가 다른 경우 혼란을 주게 된다. 더욱이, 학습시에 충분한 rotation augmentation을 해도 Detector가 그림 2 (d)에 표시된 것처럼 시각적 특징만으로 읽기 순서를 정확하게 예측하기가 힘들다. 이런 어려움때문에 본 논문에서는 text의 구체적인 내용을 고려하지 않고 순수한 공간적 의미에서 text의 위쪽과 아래쪽을 구분하도록 Detector를 안내하는 위치 label 형식을 사용한다.
그림 3에서 볼 수 있듯이 positional label 형식은 주로 시계 방향 순서 및 text 내용과 무관한 두 가지 간단한 규칙을 따른다. 구체적으로 모든 원본 포인트 label의 순서를 시계 방향으로 만들고, text instance의 원래 위쪽이 아래쪽 위치에 있으면 시작점이 다른 쪽으로 조정된다. 두 변을 좌우로 배치할 때 최소 y값이 작은 변(원점은 왼쪽 상단)이 있는 변이 있으면 이 변으로 시작점을 조정하고 그렇지 않으면 고정된 기본 변이 된다.
Explicit Point Query Modeling
CNN backbone과 Encoder까지 거치면 다수의 axis-aligned boxes proposal가 만들어진다. 여기서 top k개의 proposal에 의해 만들어지 anchor box는 encode되고 N개의 control point query가 나온다. query Q는 식 1과 같다.
P는 query의 위치, C는 content part 정보를 나타낸다. ϕ는 linear 및 normalization layer를 사용하는 sine positional encoding 함수다. (x, y, w, h)는 anchor box의 center 좌표와 scale 정보를 나타낸다. . (p1, . . . , pN )는 N개의 학습가능한 control point content query를 나타낸다. point 좌표는 layer를 거치면서 정제되고 새로운 좌표로 변형된다.
그림 4는 이 논문에서 제안한 DPText-DETR 모델과 다른 모델들의 성능을 비교한 표이다. 3가지의 데이터셋에 대해서 Precision, Recall, F-Measure를 측정했다.
'Computer Vision' 카테고리의 다른 글
CNN : Convolutional layer와 Forward 과정의 이해 (0) | 2023.07.04 |
---|---|
PP-OCR 기술 리뷰 (0) | 2023.07.03 |
CLIP : Contrastive Language-Image Pre-Training 리뷰 (0) | 2023.06.23 |
Swin Transformer 논문 리뷰 (0) | 2023.06.23 |
CRNN(Convolutional Recurrent Neural Network) 모델 개요 (0) | 2023.06.20 |