반응형 Computer Vision36 ConvNext 논문 리뷰 2022년에 페이스북에서 A ConvNet for the 2020s (ConvNext) 라는 논문을 발표했다. CNN이 이미지 인식 분야에서 아주 뛰어난 기술이었지만 Vision Transformer의 등장으로 CNN의 성능을 뛰어넘게 되면서 Transformer 기반의 이미지 처리에 대한 연구가 활발히 진행되고 있다. 이 논문은 Transformer가 아닌 순수 CNN을 기반으로 Vision Transformer(ViT), Swin Transformer를 뛰어넘는 ConvNext라는 모델을 제안한다. Modernizing a ConvNet: a Roadmap 논문에서는 ResNet-50/ResNet-200을 시작점으로하여 다양한 기법을 적용해서 성능을 향상시킨다. 그림 1에서 남색 바는 ResNet-5.. 2023. 8. 17. CNN 모델 아키텍처 발전 과정 LeNet-5 (1998)Yann LeCun에 의해 개발된 이 초기 CNN 아키텍처는 손글씨 숫자 인식 문제를 해결하는 데 사용되었다. 이 모델은 복수의 convolutional layer와 pooling layer, 그리고 마지막에 fully connected layer를 사용하는 형태를 제안했다. 이는 현대의 CNN 아키텍처가 따르는 주요 패턴의 초석을 놓았다. AlexNet (2012)Alex Krizhevsky에 의해 개발된 AlexNet은 2012년 ImageNet Large Scale Visual Recognition Challenge(ILSVRC)에서 우승한 모델이다. AlexNet은 LeNet의 구조를 확장해서 더 깊고 복잡한 네트워크를 만들고, ReLU 활성화 함수, 드롭아웃, 데이터 증.. 2023. 7. 24. 3D Object Recognition : Point Cloud(Lidar)와 뎁스이미지(Depth-Camera) 데이터에 대한 이해 3D 데이터 인식은 3차원 공간에서 특정 객체를 감지하고 분류하는 작업이다. 그 중 3D Object Detection은 객체의 3D bounding box와 label을 예측하는 작업이다. 3D bounding box라 함은 객체의 위치, 크기뿐만 아니라 방향까지도 3차원적으로 예측할 수 있다. 보통 자율주행차량이나 로봇과 같은 환경에서 많이 사용되는 기술이다. 구체적으로 3D bounding box의 중심점은 객체의 3차원 공간에서의 위치를 나타내는데 x, y, z 좌표로 표현될 수 있다. 여기서 객체의 방향을 나타내는 회전 정보를 포함할 수 있는데 자율주행차량이나 로봇에서 다른 개체의 방향을 알아내는 것은 중요한 정보가 될 수 있다. 3D Object Recognition은 RGB 이미지, RGB-.. 2023. 7. 15. 딥러닝 Optimizer의 역할과 종류 딥러닝 학습 과정과 Optimizer 역할 딥러닝 신경망을 학습시키는 과정은 본질적으로 복잡한 최적화 문제를 해결하는 것이다. 이 최적화 과정의 목표는 모델의 손실 함수(loss function)를 최소화하는 가중치(weights)와 편향(bias)를 찾는 것인데 이때, 옵티마이저(optimizer)의 역할이 중요하다. optimizer는 손실 함수의 그래디언트(기울기)를 계산하고, 이 정보를 사용해 모델의 가중치를 업데이트하는 방법을 정의한다. 이 업데이트는 손실 함수를 최소화하는 방향으로 이루어지며, 일반적인 과정은 다음과 같다. 1. Forward Propagation : 입력 데이터는 신경망의 각 층을 통과하며, 각 층의 가중치를 계산한다. 이 과정을 통해 최종 출력(예측)이 생성된다. 2. Lo.. 2023. 7. 13. Text Detection : DBNet++ 글자 검출 모델 DBNet++ : Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion 논문에 대한 리뷰다. DBNet++는 Segmentation 기반의 글자 검출 방법으로 DB 글자 검출 모델처럼 Differentiable Binarization 방식을 사용하는데, 성능을 더 향상시키기 위해 Adaptive Scale Fusion 모듈이 추가되었다. 그림 1은 MSRA-TD500 데이터셋에 대한 성능을 비교한 것이다. 그림 1에서 볼 수 있듯이 DBNet보다 성능이 더 많이 향상되었다. Instroduction Segmentation 기반 글자 검출 방법은 보통 불규칙한 모양의 글자나 종횡비 차.. 2023. 7. 13. CNN : 활성화 함수의 종류와 이해 활성화 함수란? 활성화 함수(Activation Function)는 신경망의 핵심 구성요소 중 하나로 각 뉴런의 출력 값을 결정하는 역할을 한다. 각 뉴런에서는 입력 값에 가중치를 곱하고, 더한 다음, 이 결과를 활성화 함수에 전달하여 출력 값을 생성한다. 활성화 함수는 주로 비선형 함수를 사용한다. 비선형 함수를 사용하는 이유는 신경망에 복잡한 패턴을 학습하고 모델링 할 수 있는 능력을 부여하기 위해서인데, 선형 함수만 사용한다면 신경망의 여러 층을 가지는 것이 의미가 없어지게 된다. 선형 함수의 연속 조합은 결국 선형 함수를 얻게 되므로 여러 층으로 구성된 신경망은 단층 신경망과 동일한 기능을 수행하게 된다. 따라서 비선형 활성화 함수를 통해 신경망은 복잡한 패턴을 학습하고 선형적으로 분리할 수 없는.. 2023. 7. 12. 이전 1 2 3 4 5 6 다음 반응형