본문 바로가기
반응형

Computer Vision36

Semantic Segmentation 개요:개체 영역 식별에 대한 소개 및 주요 문제 Semantic Segmentation이란? Semantic Segmentation은 컴퓨터 비전 분야에서 중요한 작업 중 하나로, 디지털 이미지 또는 비디오를 픽셀 수준에서 분석하여 이미지 내의 개별 객체 또는 영역을 식별하는 기술이다. 이미지의 각 픽셀에 대해 클래스 레이블을 할당하는 작업이라고 할 수 있다. 이를 통해 이미지의 각 부분을 특정 객체 또는 영역으로 식별할 수 있다. 예를들면 아래 사진과 같이 이미지의 픽셀들을 분류해서 해당 픽셀이 자동차인지 도로인지 하늘인지 어떤 클래스에 속하는지 파악하는 Task이다. Semantic segmentation은 픽셀마다 정확한 레이블을 할당하기 때문에 픽셀 수준에서 객체의 경계를 정확하게 추출할 수 있다. 이를 통해 객체의 크기, 모양, 위치 등을 추.. 2023. 6. 8.
MatCha - 차트 vision-language 추론 모델 구글에서 MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering 라는 논문을 발표 했다. 표나 차트 같은 이미지가 주어졌을 때 이것을 디렌더링하고 수학적 추론을 기반으로 필요한 정보를 얻어내는 기술이다. google-blog에서 자세한 내용을 확인할 수 있다. PlotQA와 ChartQA 데이터셋에서 이전 방법보다 성능이 대략 20% 가량 뛰어나다고 한다. 논문에서는 최근에 제안된 image-to-text visual language 모델인 pix2struct 를 기반으로 pre-training했다고 한다. 논문에서 이야기하는 핵심은 Chart Derendering과 Math Reasoning 두 가지이.. 2023. 5. 30.
Image Detection Transformer (DETR) 기존에 이미지에서 객체를 검출하는 알고리즘으로 RCNN 계열, YOLO와 같은 딥러닝 모델이 있는데, 최근에는 Transformer를 적용한 Detection 방법이 많이 연구되고 있다. 특히 End-to-End Object Detection with Transformers[1]는 Transformer를 Object Detection에 적용하는 방식을 처음으로 제안했다. Transformer 기반의 Detection 방법에 대한 베이스 논문으로 볼 수 있다. DETR(End-to-End Object Detection with Transformers)은 "DEtection TRansformer"의 약자로, Facebook AI에 의해 개발되었다. Transformer를 적용한 Object Detection.. 2023. 5. 26.
Vision Transformer 최근에 이미지 인식의 다양한 분야에 Transformer[1]가 적용되어 높은 성능을 달성하고 있다. 예전에는 Convolutional Layer를 겹겹이 쌓는 방식으로 이미지의 특징을 추출하고 이를 통해 이미지를 인식하는 방법이 대세였지만 Vision Transformer[2] 이후 이미지 인식 패러다임이 많이 바뀌고 있다는 것이 느껴진다. Transformer는 주로 자연어 처리 분야에 적용되어 높은 성능을 이끌어왔다. 최근 몇 년간 자연어 처리의 많은 Task에서 SOTA를 이룬 BERT, GPT 언어모델은 각각 Transformer의 Encoder와 Decoder를 기반한 모델이다. Transformer의 특징은 RNN, CNN과는 다르게 Attention만을 활용해 모델을 구축한 것이다. 그림 .. 2023. 5. 23.
Text Detection : Arbitrary Shape Text Detection via Boundary Transformer (TextBPN++) 논문 리뷰 Scene Text Detection을 수행하는 Arbitrary Shape Text Detection via Boundary Transformer [1](TextBPN++)에 대한 논문 리뷰이다. 이 모델은 그림 1과 같이 Arbitrary shape 글자에 대해서도 비교적 잘잡는 모습을 보여준다.회전되거나 휘어진 글자 영역을 정확히 잡는 일은 쉽지 않은 작업이다. 특히 정확한 글자 영역을 잡기 위해서 복잡한 Post-Processing 방법이 적용되는 경우가 많은데 이 논문은 그런 post-processing 과정 없이 글자의 boundary를 학습해서 잡는 방법을 제안한다. 논문의 핵심 키포인트는 coarse-to-fine 방식으로 반복적으로 boundary를 잡는 transformer를 적용해서 .. 2023. 5. 23.
딥러닝 모델 경량화 방법 딥러닝 모델을 빠른 시간에 돌리기위한 다양한 모델 경량화 방법들이 있다. 이러한 다양한 경량화 방법은 크게 3 가지로 나눌 수 있다.1. 딥러닝 알고리즘 자체를 적은 연산과 효율적인 구조로 설계하는 방법  (1). Convolution layer는 연산량이 많은 대표적인 CNN의 layer이다. Conv를 적용하고 Max Pool을 통해 다운샘플링을 많이할수록 속도가 빨라질 수 있고, 연산량과 변수가 너무 많아 학습되지 않는 문제점을 해결할 수 있다. 하지만 너무 많은 Max Pool 연산은 해상도를 줄이게 됨으로써 성능 하락의 효과가 있다.   (2). 1x1 필터를 사용하는 방법      - Convolution을 적용할때 1x1 필터를 적용하여 연산수를 줄이는 방법이다. 일반적으로 Conv의 연산량.. 2023. 5. 15.
반응형