DPTNet: A Dual-Path Transformer Architecture for Scene Text Detection 논문[1]에 대한 리뷰다. 이 논문은 CNN+Transformer 기반으로 단순하지만 효율적으로 global, local 정보를 모델링해서 좋은 성능을 냈다고 한다.
Related Work
CNN은 convolution 연산을 통해서 feature를 추출하는데 효율적임이 증명되었다. 하지만 receptive field 크기가 제한적이라는 단점이 있다. 이런 제한은 convolution 연산이 이미지의 context 정보를 무시하고 지역적인 정보에 집중한다는 점 때문이다. 이런 점을 완화하기 위해 많은 연구가 진행되었는데, global attention 메커니즘을 이용한 방법, dilated convolution kernel을 사용하는 방법, Deformable convolution을 사용한 방법 등이 있다.
Methodology
이 논문에서 제안하는 DPTNet 모델의 아키텍처는 그림 1과 같다. 먼저 이미지가 들어오면 FPN을 통해서 multi-level feature를 추출한다. 그리고 추출된 feature를 up-sampling해서 같은 scale로 만들고, contextual feature를 추출하기 위해 multi-head attention을 적용한다. 그런 다음 feature는 probability map과 threshold map을 만드는데 사용된다.

Transformer-enhanced Backbone
CNN과 Transformer를 병렬로 상호보완적으로 사용해서 더 나은 성능을 얻는다. CNN path에서는 3 × 3 커널 사이즈를 이용한 depth-wise convolution를 사용한다. 두 가지 path의 아키텍처가 다르기 때문에 합쳐질 branch에 맞게 채널 수를 조정한다. 채널 수가 조정된 후에는 normalization 과정을 거친다. 학습 시에는 두 path는 동시에 학습된다.
그림 2와 같이 dual-path branches의 output feature는 bi-directional interactions을 한다. 이 말은 두 path에서 상호보완적으로 channel과 spatial 정보를 취합하여 더 나은 representation learning을 한다고 보면 된다.

Multi-head Attention Decoder
본 논문에서는 spatial level text 정보를 온전하게 유지하기 위해서 multi-head attention decoder를 사용한다. 우선 다른 level의 feature를 같은 scale로 만든다. 다음으로 multi-head attention module을 사용해서 feature를 channel dimension에 따라 N개의 파트로 나눈다.

'Computer Vision' 카테고리의 다른 글
| CNN : 활성화 함수의 종류와 이해 (0) | 2023.07.12 |
|---|---|
| CNN : 다양한 Convolution 연산들 (0) | 2023.07.10 |
| 카메라 캘리브레이션 (Camera Calibration) (0) | 2023.07.04 |
| CNN : Convolutional layer와 Forward 과정의 이해 (0) | 2023.07.04 |
| PP-OCR 기술 리뷰 (0) | 2023.07.03 |