반응형 Computer Vision35 Text Detection : DPTNet 논문 리뷰 DPTNet: A Dual-Path Transformer Architecture for Scene Text Detection 논문[1]에 대한 리뷰다. 이 논문은 CNN+Transformer 기반으로 단순하지만 효율적으로 global, local 정보를 모델링해서 좋은 성능을 냈다고 한다. Related Work CNN은 convolution 연산을 통해서 feature를 추출하는데 효율적임이 증명되었다. 하지만 receptive field 크기가 제한적이라는 단점이 있다. 이런 제한은 convolution 연산이 이미지의 context 정보를 무시하고 지역적인 정보에 집중한다는 점 때문이다. 이런 점을 완화하기 위해 많은 연구가 진행되었는데, global attention 메커니즘을 이용한 방법, di.. 2023. 7. 6. 카메라 캘리브레이션 (Camera Calibration) 카메라 캘리브레이션이란? 우리가 실제 눈으로 보는 세상은 3차원이다. 하지만 카메라는 3차원 세계를 2차원으로 투영해서 영상을 획득한다. 3차원 세계를 2차원 이미지로 투영했을 때, 이미지는 사용된 렌즈, 렌즈와 이미지 센서와의 거리, 렌즈와 이미지 센서가 이루는 각 등 카메라 내부의 기구적인 부분에 영항을 크게 받는다. 카메라 캘리브레이션 (Camera Calibration)은 카메라의 내부 및 외부 파라미터를 결정하는 과정이다. 이 파라미터는 카메라의 렌즈 왜곡, 초점 거리, 광학 축 위치 등을 포함하며, 이를 통해 카메라가 캡쳐한 2D 이미지를 3D 세계 좌표로 매핑하는 데 사용될 수 있다. 카메라 캘리브레이션은 왜 필요한가? 사실 단순히 이미지 처리를 하는 경우에는 카메라 캘리브레이션을 하지 않는.. 2023. 7. 4. CNN : Convolutional layer와 Forward 과정의 이해 CNN(Convolutional Neural Network)은 이미지 인식 및 처리를 위해 아주 효과적인 딥러닝 알고리즘이다. CNN은 응용하기에 따라 여러 가지 구성요소로 구성되어있는데 기본적으로는 Convolutional layer와 Pooling, Fully Connected layer로 이루어져있다. Convolutional Layer: 이미지의 픽셀 값에서 특징을 추출하는 계층이다. 여러 개의 필터 (또는 커널)을 사용하여 이미지 위를 슬라이딩하면서 이미지의 다양한 부분에서 특징을 학습한다. Pooling (Sub-sampling) Layer: CNN의 구조에서 각 Convolutional Layer 다음에 위치하는데, 이는 이미지 데이터의 차원을 줄이고 (예: 이미지 크기 축소) 연산량을 감소.. 2023. 7. 4. PP-OCR 기술 리뷰 PP-OCR은 바이두에서 개발한 광학 문자 인식 (OCR: Optical Character Recognition) 시스템이다. 2020년에 PP-OCRv1이 나오고 현재 v3까지 업데이트되었다. PP-OCR은 PaddleOCR 이라는 프레임워크로 github에 공개되어있다. 그림 1처럼 OCR과 문서 인식을 위한 다양한 알고리즘을 제공한다. Apache 라이센스라서 원래의 저작자만 명시한다면 이를 가져다 써도 문제는 없다. 하지만 중국에서 개발한 것이라 국내 환경에는 적합하지 않은 테스트 케이스가 많다. 프레임워크화는 잘되어있어서 개인적으로 여기서 제공하는 알고리즘을 실험해보기엔 나쁘지 않은것 같다. 또 논문에서는 경량화된 OCR 시스템을 만들기위해 많은 노력을 쏟았다. PPOCRv1 PPOCRv1은 2.. 2023. 7. 3. Text Detection : DPText-DETR 2022년 말에 공개된 Text Detection 방법인 DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in Transformer[1] 논문에 대한 리뷰다. DPText는 Transformer를 이용한 방법이고, Dynamic Points 로 휘어진 글자를 검출할 수 있으며 성능이 아주 좋다고 한다. 논문에서 제안하는 핵심 키포인트는 prior points를 sampling하고 update할 수 있는 Explicit Point Query Modeling(EPQM) 방법과 Enhanced Factorized Self-Attention (EFSA) module이다. 모델의 Architecture는 그림 1과 같다. CNN backb.. 2023. 6. 28. CLIP : Contrastive Language-Image Pre-Training 리뷰 요새 자연어와 이미지를 함께 사용하는 멀티 모달(multi-modal)에 대한 연구가 활발하다. 자연어와 이미지의 멀티모달에 대한 유명한 베이스 논문으로 CLIP:Learning Transferable Visual Models From Natural Language Supervision[1]이 있다. CLIP은 2021년 OpenAI에서 발표한 Language와 Image 간의 연결을 학습하는데 중점을 둔 모델이다. Stable Diffusion이나 Dall-E 같은 기술의 베이스가 되는 논문이라고도 할 수 있다. CLIP은 (image, text) 쌍이 되는 데이터 샘플을 웹에서 약 4억장정도 모아서 학습에 사용한다. n개의 (image, text) 샘플을 가진 mini-batch에서 모든 image와.. 2023. 6. 23. 이전 1 2 3 4 5 6 다음 반응형