본문 바로가기

전체 글78

3D Object Recognition : Point Cloud(Lidar)와 뎁스이미지(Depth-Camera) 데이터에 대한 이해 3D 데이터 인식은 3차원 공간에서 특정 객체를 감지하고 분류하는 작업이다. 그 중 3D Object Detection은 객체의 3D bounding box와 label을 예측하는 작업이다. 3D bounding box라 함은 객체의 위치, 크기뿐만 아니라 방향까지도 3차원적으로 예측할 수 있다. 보통 자율주행차량이나 로봇과 같은 환경에서 많이 사용되는 기술이다. 구체적으로 3D bounding box의 중심점은 객체의 3차원 공간에서의 위치를 나타내는데 x, y, z 좌표로 표현될 수 있다. 여기서 객체의 방향을 나타내는 회전 정보를 포함할 수 있는데 자율주행차량이나 로봇에서 다른 개체의 방향을 알아내는 것은 중요한 정보가 될 수 있다. 3D Object Recognition은 RGB 이미지, RGB-.. 2023. 7. 15.

딥러닝 Optimizer의 역할과 종류 딥러닝 학습 과정과 Optimizer 역할 딥러닝 신경망을 학습시키는 과정은 본질적으로 복잡한 최적화 문제를 해결하는 것이다. 이 최적화 과정의 목표는 모델의 손실 함수(loss function)를 최소화하는 가중치(weights)와 편향(bias)를 찾는 것인데 이때, 옵티마이저(optimizer)의 역할이 중요하다. optimizer는 손실 함수의 그래디언트(기울기)를 계산하고, 이 정보를 사용해 모델의 가중치를 업데이트하는 방법을 정의한다. 이 업데이트는 손실 함수를 최소화하는 방향으로 이루어지며, 일반적인 과정은 다음과 같다. 1. Forward Propagation : 입력 데이터는 신경망의 각 층을 통과하며, 각 층의 가중치를 계산한다. 이 과정을 통해 최종 출력(예측)이 생성된다. 2. Lo.. 2023. 7. 13.

Text Detection : DBNet++ 글자 검출 모델 DBNet++ : Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion 논문에 대한 리뷰다. DBNet++는 Segmentation 기반의 글자 검출 방법으로 DB 글자 검출 모델처럼 Differentiable Binarization 방식을 사용하는데, 성능을 더 향상시키기 위해 Adaptive Scale Fusion 모듈이 추가되었다. 그림 1은 MSRA-TD500 데이터셋에 대한 성능을 비교한 것이다. 그림 1에서 볼 수 있듯이 DBNet보다 성능이 더 많이 향상되었다. Instroduction Segmentation 기반 글자 검출 방법은 보통 불규칙한 모양의 글자나 종횡비 차.. 2023. 7. 13.

CNN : 활성화 함수의 종류와 이해 활성화 함수란? 활성화 함수(Activation Function)는 신경망의 핵심 구성요소 중 하나로 각 뉴런의 출력 값을 결정하는 역할을 한다. 각 뉴런에서는 입력 값에 가중치를 곱하고, 더한 다음, 이 결과를 활성화 함수에 전달하여 출력 값을 생성한다. 활성화 함수는 주로 비선형 함수를 사용한다. 비선형 함수를 사용하는 이유는 신경망에 복잡한 패턴을 학습하고 모델링 할 수 있는 능력을 부여하기 위해서인데, 선형 함수만 사용한다면 신경망의 여러 층을 가지는 것이 의미가 없어지게 된다. 선형 함수의 연속 조합은 결국 선형 함수를 얻게 되므로 여러 층으로 구성된 신경망은 단층 신경망과 동일한 기능을 수행하게 된다. 따라서 비선형 활성화 함수를 통해 신경망은 복잡한 패턴을 학습하고 선형적으로 분리할 수 없는.. 2023. 7. 12.

MediaPipe를 이용한 3D Object Detection MediaPipe란?MediaPipe는 Google에서 개발한 크로스 플랫폼 프레임워크로, 비디오, 이미지, 오디오 및 3D 데이터를 처리할 수 있는 높은 성능의 머신러닝 모델을 사용하여 다양한 응용 프로그램을 구현할 수 있게 해준다. 언어는 C++, Python, JavaScript를 지원하고 Android와 iOS에서도 사용 가능하다. 여기서는 python으로 손 검출하는 방법을 알아볼 것이다. 우선 MediaPipe를 설치해야 한다. 설치하는 명령어는 다음과 같다. pip install mediapipe MediaPipe를 이용한 3D Object Detection3D Object Detection를 위해서는 'Objectron'이라는 MediaPipe의 솔루션을 사용할 수 있다. import cv.. 2023. 7. 10.

CNN : 다양한 Convolution 연산들 CNN에서 사용되는 Convolution은 필터 또는 커널이라는 작은 매트릭스를 이미지나 이전 계층의 출력에 적용하여 특징을 추출하는 방법이다. 컨볼루션 연산은 이 필터를 이미지의 각 픽셀 위로 움직이며, 필터와 이미지 부분 간의 점별 곱셈을 수행하고 그 결과를 합산한다. 필터의 가중치는 학습 과정 중에 업데이트되며, 이 가중치들은 이미지의 특정 특징 (예: 엣지, 질감 등)에 반응하는 방식으로 조정된다. 컨볼루션은 기본적으로 입력의 공간적 정보를 보존하면서 이미지의 특징을 추출한다. 이러한 컨볼루션 연산에도 조금씩 변형을하여 개선을 시도한 다양한 컨볼루션 연산이 존재한다. 컨볼루션 (Standard Convolution) 가장 기본적인 컨볼루션 유형으로, 입력 이미지에 작은 크기의 필터 또는 커널을 이.. 2023. 7. 10.

이전 1 2 3 4 5 6 7 ··· 13 다음

티스토리툴바