본문 바로가기

분류 전체보기77

Weight 초기화 방법들 딥러닝 신경망의 weight 초기화는 학습 동안의 수렴 속도와 최종 성능에 큰 영향을 미칠 수 있다. 잘못된 초기화는 학습의 불안정성이나 수렴하지 않는 현상을 초래할 수 있어서 초기화 방법은 신경망 학습에서 중요한 부분이라고 할 수 있다. Zero Initialization 모든 가중치를 0으로 초기화한다. 이 방법은 실제로 사용하기에 적절하지 않다. 모든 뉴런이 동일한 출력을 생성하기 때문에 학습하는 동안 갱신이 되지 않는다. 대칭성 문제로 학습이 힘들지만 bias를 초기화하는데 사용할 수는 있다. Random Initialization 가중치를 작은 랜덤 값으로 초기화한다. 너무 큰 값이나 너무 작은 값으로 초기화하면 학습이 제대로 되지 않을 수도 있다. Xavier (Glorot) Initializ.. 2023. 9. 19.

MixNet 논문 리뷰 (Text Detection) 작은 글자를 검출하는 것은 불규칙한 위치, 다른 스타일, 조명 조건 등 여러가지 요인으로 인해 쉽지 않다. MixNet [1] 논문에서는 text를 정확하게 검출하기 위해 CNN과 Transformer의 장점을 결합한 MixNet을 제안한다. MixNet을 핵심 모듈은 두 가지인데, 첫번째는 Feature Shuffle Network (FSNet)이다. FSNet은 MixNet의 backbone으로 새로운 방법인 feature shuffling을 도입했다. 이 방법은 여러 scale 간의 feature 교환을 허용하므로 고해상도의 고품질 feature를 생성할 수 있다. 이 방법은 ResNet이나 HRNet과 같은 대중적인 방법보다 더 낫다고한다. 두번째는 Central Transformer Block .. 2023. 9. 10.

ConvNext 논문 리뷰 2022년에 페이스북에서 A ConvNet for the 2020s (ConvNext) 라는 논문을 발표했다. CNN이 이미지 인식 분야에서 아주 뛰어난 기술이었지만 Vision Transformer의 등장으로 CNN의 성능을 뛰어넘게 되면서 Transformer 기반의 이미지 처리에 대한 연구가 활발히 진행되고 있다. 이 논문은 Transformer가 아닌 순수 CNN을 기반으로 Vision Transformer(ViT), Swin Transformer를 뛰어넘는 ConvNext라는 모델을 제안한다. Modernizing a ConvNet: a Roadmap 논문에서는 ResNet-50/ResNet-200을 시작점으로하여 다양한 기법을 적용해서 성능을 향상시킨다. 그림 1에서 남색 바는 ResNet-5.. 2023. 8. 17.

CNN 모델 아키텍처 발전 과정 LeNet-5 (1998)Yann LeCun에 의해 개발된 이 초기 CNN 아키텍처는 손글씨 숫자 인식 문제를 해결하는 데 사용되었다. 이 모델은 복수의 convolutional layer와 pooling layer, 그리고 마지막에 fully connected layer를 사용하는 형태를 제안했다. 이는 현대의 CNN 아키텍처가 따르는 주요 패턴의 초석을 놓았다. AlexNet (2012)Alex Krizhevsky에 의해 개발된 AlexNet은 2012년 ImageNet Large Scale Visual Recognition Challenge(ILSVRC)에서 우승한 모델이다. AlexNet은 LeNet의 구조를 확장해서 더 깊고 복잡한 네트워크를 만들고, ReLU 활성화 함수, 드롭아웃, 데이터 증.. 2023. 7. 24.

Python 내장함수 : getattr, isinstance getattr 이름이 문자열로 주어진 객체의 속성을 반환하는 함수다. 함수의 기본적인 형태는 다음과 같다. getattr(object, name[, default]) 여기서 각 인자는 다음과 같은 의미를 가진다. object: 속성을 가져올 대상 객체. name: 가져올 속성의 이름을 나타내는 문자열. 이 이름에 해당하는 속성이 객체에 없는 경우 AttributeError가 발생한다. default (선택적): 이름에 해당하는 속성이 객체에 없는 경우 반환할 기본값. 이 인자가 제공되지 않고 해당 이름의 속성이 없는 경우 AttributeError가 발생한다. class Test: x = 'hello' t = Test() print(getattr(t, 'x')) # 출력: hello print(getat.. 2023. 7. 24.

3D Object Recognition : Point Cloud(Lidar)와 뎁스이미지(Depth-Camera) 데이터에 대한 이해 3D 데이터 인식은 3차원 공간에서 특정 객체를 감지하고 분류하는 작업이다. 그 중 3D Object Detection은 객체의 3D bounding box와 label을 예측하는 작업이다. 3D bounding box라 함은 객체의 위치, 크기뿐만 아니라 방향까지도 3차원적으로 예측할 수 있다. 보통 자율주행차량이나 로봇과 같은 환경에서 많이 사용되는 기술이다. 구체적으로 3D bounding box의 중심점은 객체의 3차원 공간에서의 위치를 나타내는데 x, y, z 좌표로 표현될 수 있다. 여기서 객체의 방향을 나타내는 회전 정보를 포함할 수 있는데 자율주행차량이나 로봇에서 다른 개체의 방향을 알아내는 것은 중요한 정보가 될 수 있다. 3D Object Recognition은 RGB 이미지, RGB-.. 2023. 7. 15.

이전 1 2 3 4 5 6 ··· 13 다음

티스토리툴바