본문 바로가기
Computer Vision

MixNet 논문 리뷰 (Text Detection)

by pnnote 2023. 9. 10.
반응형

작은 글자를 검출하는 것은 불규칙한 위치, 다른 스타일, 조명 조건 등 여러가지 요인으로 인해 쉽지 않다. MixNet [1] 논문에서는 text를 정확하게 검출하기 위해 CNN과 Transformer의 장점을 결합한 MixNet을 제안한다. MixNet을 핵심 모듈은 두 가지인데, 첫번째는 Feature Shuffle Network (FSNet)이다. FSNet은 MixNet의 backbone으로 새로운 방법인 feature shuffling을 도입했다. 이 방법은 여러 scale 간의 feature 교환을 허용하므로 고해상도의 고품질 feature를 생성할 수 있다. 이 방법은 ResNet이나 HRNet과 같은 대중적인 방법보다 더 낫다고한다. 두번째는 Central Transformer Block (CTBlock) 이다. CTBlock은 text의 중심 선 기반 feature를 사용하기 위해 설계되었다. 이것은 text 영역의 "척추" 또는 주요 축에 중점을 둔다고 생각할 수 있다. 이런 방식의 장점은 텍스트의 윤곽 또는 가장자리를 감지하는 방법보다, 특히 작은 텍스트가 밀접하게 나타나는 어려운 상황에서 더 효과적이라고 한다. 그림 1은 MixNet의 아키텍쳐이다.

 

그림 1. MixNet Architecture

 

그림 1에서 볼 수 있듯이 MixNet은 FSNet, Central Transformer Block, Transformer module로 나뉜다.
FSNet는 backbone 네트워크로 사용되어 feature를 추출하며, 픽셀 수준의 classification, distance field, orientation field, 그리고 embedding value를 생성한다. 이 정보를 사용하여 대략적인 텍스트 윤곽을 생성한다. 대략적인 텍스트 윤곽에서 추출된 P개의 점들이 CTBlock에 입력으로 사용된다. 특히, P개의 샘플 포인트와 해당 이미지 특징들이 시퀀스로 CTBlock에 입력된다.
첫 번째 Transformer 모듈은 샘플 포인트의 x와 y 오프셋을 예측하고 이들을 사용하여 텍스트 윤곽의 중심선을 생성한다. 이 중심선은 샘플링되고, 대략적인 윤곽의 특징 시퀀스와 결합된 다음, 두 번째 Transformer 모듈에 전송되어 대략적인 텍스트 윤곽을 수정하고 더 정교한 텍스트 윤곽을 생성한다.

FSNet (Feature Shuffle Network)

일반적인 CNN 기반 backbone은 feature 추출 중에 노이즈에 민감할 수 있다. 인기 있는 백본인 ResNet과 VGG는 대체로 rough한 고해상도 특징을 생성하는데, 이점은 작은 text 인스턴스 검출에 적합하지 않다. 작은 text 인스턴스를 더 잘 검출하기 위해 고해상도 특징을 더 잘 추출할 수 있는 네트워크가 필요했고, 실험적으로 저해상도 특징이 노이즈와 교란에 더 강한 능력을 가지고 있다는 것을 관찰했다고 한다. 따라서 FSNet는 특징 추출 중에 저해상도와 고해상도 특징 모두를 교환하도록 설계되었다. 이로 인해 추출된 고해상도 특징이 노이즈에 덜 취약해진다. FSNet의 구조는 HRNet과 유사하지만, 특징을 셔플하는 방식에서 핵심적인 차이가 있다. HRNet은 레이어 간의 특징을 더함으로써 혼합하지만, FSNet은 각 해상도의 채널을 균등하게 나누고 셔플한다. 셔플링 후 각 해상도의 잘린 특징들은 동일한 크기로 업샘플링 또는 다운샘플링되어 새로운 특징으로 연결된다.

 

FSNet의 주요 모듈
Convolution Block : 큰 수로 쌓여 특징을 추출하는 데 사용된다.
Down-sample Block : 3x3 컨볼루션을 사용하여 다운샘플링한다.
Shuffle Layer : 각 해상도의 특징 채널을 입력 수 N로 나눕니다. 이 층에서의 연산은 여러 스케일 간의 특징 교환을 촉진하여, ResNet 및 HRNet보다 더 구별력 있는 특징을 생성한다.
효율성 : 셔플 레이어에 학습 가능한 파라미터가 없기 때문에 HRNet보다 더 효율적이다.

FSNet의 최종 레이어 : 모든 네 가지 스케일의 결과가 단일 특징 맵으로 연결된다.

FSNet의 주요 목적은 텍스트 인스턴스의 다양한 스케일에서 노이즈와 교란에 덜 민감하면서도 고해상도 특징을 효과적으로 추출하는 것이다.

 

CTBlock (Central Transformer Block)

이전 연구에서는 text 인스턴스의 주변에 샘플링 포인트가 주로 위치했다. 예를 들어, DPText-DETR [2]에서는 각 text 영역의 bounding box 주변에서 포인트가 샘플링되었다. 그러나 이러한 주변 샘플링 특징은 많은 배경 특성을 포함하며, 이로 인해 텍스트에만 집중하는 것을 방해한다. 이런 문제를 해결하기 위해 CTBlock을 제안한다. CTBlock 내부의 Transformer 모듈은 encoder-decoder 구조를 채택하고, 여기에는 세 개의 layer로 구성된 transformer 블록이 인코더로 포함되어 있다. 각 블록에는 다중 헤드 self attention 블록과 MLP 네트워크가 포함된다. 디코더는 간단한 MLP로 구성된다.

 

트랜스포머 모듈의 장점으로 주변 특징과 중심선 특징의 조합을 통해 더욱 정확한 text 윤곽을 생성할 수 있다. 그리고 두 text 인스턴스가 가까이 위치하면, 인접한 영역의 윤곽 특징이 변형 또는 간섭을 일으킬 수 있는데 중심선은 이러한 시나리오에서 두 text 인스턴스의 분리를 유지하는 데 효과적이다.

 

Central Transformer Block은 윤곽 및 중심선에 포인트 샘플링을 포함하여, 모델이 text 경계를 학습하고 최적화하는 데 도움을 주며, 결과적으로 더 정확한 text 윤곽을 생성한다.

 

 

요약하면, MixNet은 FSNet와 Central Transformer Block의 조합으로 구성된 새로운 아키텍처를 제안했고, 이를 통해 text 검출의 정확성을 크게 향상시켰다.

반응형