반응형 Computer Vision36 CLIP : Contrastive Language-Image Pre-Training 리뷰 요새 자연어와 이미지를 함께 사용하는 멀티 모달(multi-modal)에 대한 연구가 활발하다. 자연어와 이미지의 멀티모달에 대한 유명한 베이스 논문으로 CLIP:Learning Transferable Visual Models From Natural Language Supervision[1]이 있다. CLIP은 2021년 OpenAI에서 발표한 Language와 Image 간의 연결을 학습하는데 중점을 둔 모델이다. Stable Diffusion이나 Dall-E 같은 기술의 베이스가 되는 논문이라고도 할 수 있다. CLIP은 (image, text) 쌍이 되는 데이터 샘플을 웹에서 약 4억장정도 모아서 학습에 사용한다. n개의 (image, text) 샘플을 가진 mini-batch에서 모든 image와.. 2023. 6. 23. Swin Transformer 논문 리뷰 Swin Transformer[1]는 2021년에 Microsoft Research Asia에서 발표한 논문이다. Classification, Detection, Segmentation 등 여러가지 vision task에 적용할 수 있는 Transformer 기반의 backbone을 제안한다. 초기 Transformer는 자연어 문장을 처리할 목적으로 개발되었다가 점차 vision 분야에도 적용이 되기 시작했다. Swin Transformer는 vision backbone을 목표로 설계되었고 여러가지 task에 적용이 가능하면서 높은 성능도 보여서 의미있는 논문이다. 기존 Transformer가 NLP 분야에서 높은 성능을 달성하고, Vision 분야에도 Transformer를 적용하는 연구가 있었지만 .. 2023. 6. 23. CRNN(Convolutional Recurrent Neural Network) 모델 개요 CRNN은 2015년에 발표된 Text Recognition의 토대가 되는 모델 중 하나다. 논문명은 An End-to-End Trainable Neural Network for Image-based SequenceRecognition and Its Application to Scene Text Recognition[1]이다. 발표된지 오래되었지만 Text Recognition 모델을 개발한다면 한번쯤 읽어봐야할 논문이라고 생각한다. 이미지 처리를 하다보면 일반적인 object 말고도 이미지 Sequence에 대해 다뤄야 하는 경우가 종종 생긴다. 예를 들면 연속된 글자라든지, 악보라든지 여러 가지가 있다. 이런 sequence-like objects는 단일 label이 아니라 series of obje.. 2023. 6. 20. 컴퓨터비전에서의 Attention Mechanism에 대한 개요 Attention은 기계 학습 분야에서 중요한 개념이다. 주어진 입력에 대해 모델이 주의를 집중하는 방식을 나타내는 메커니즘인데 모델이 입력의 특정 부분에 더 많은 주의를 기울일 수 있도록해서 모델의 성능을 향상시킨다. 최근에는 많은 모델에서 Attention을 적용하고, Attention 요소만으로 구성된 Transformer 모델을 사용해서 성능을 올리고 있다. Related Work일반적으로, Attention은 시퀀스 형태의 입력을 처리하는 모델에서 주로 사용되었다. 예를 들어, 자연어 처리에서 문장을 번역하는 기계 번역 모델에서는 Attention을 사용해서 입력 문장의 특정 단어에 더 많은 주의를 기울여서 모델은 입력 문장의 어떤 부분이 번역에 더 중요한 역할을 하는지를 파악할 수 있다.RAM.. 2023. 6. 20. Deformable Convolutional Networks (DCN) 리뷰 Deformable Convolutional Network에 대해 리뷰를 하려고합니다. Deformable Convolution Network는 기존의 convolution 연산을 확장하여 객체의 형태 변화를 모델링할 수 있는 딥러닝 네트워크입니다. 발표된지 꽤 지난 논문이지만 Detection, Segmentation 분야에서 아직도 요소기술로 많이 적용되고 있는 방법중 하나입니다. 일반적인 Convolutional layer는 고정된 수용 영역에서만 feature를 추출합니다. 3x3 conv의 경우 3x3에 맞는 해당 grid에서만 값을 샘플링하지만 Deformable convolution은 모델에 대해 더 flexible한 receptive field를 적용할 수 있습니다. 보통 객체는 scale.. 2023. 6. 13. Text Detection : Real-time Scene Text Detection with Differentiable Binarization 논문 리뷰 2019년도에 AAAI에 발표된 Real-time Scene Text Detection with Differentiable Binarization 논문[1]에 대한 리뷰입니다. 발표된지 꽤 지났지만 아직도 많이 쓰이고 있는 Text Detection 모델중 하나입니다. Differentiable Binarization 이라는 모듈을 사용하여 DB 라고도 불립니다. Real-time Scene Text Detection with Differentiable Binarization 논문은 segmentation 기반으로 text detection task에 적용하여 휘어진 글자도 잡을 수 있고, 속도도 빠른 편에 속합니다. Related Works Regression-based method text insta.. 2023. 6. 9. 이전 1 2 3 4 5 6 다음 반응형