본문 바로가기
반응형

Computer Vision35

DiT (Self-supervised Pre-training for Document Image Transformer) Document Image Transformer 라는 이름에서 알 수 있듯이 문서 이미지 관련 Task를 위해 고안된 Self-supervised Pre-training 방법이다. Self-supervised 방식으로 라벨링되지 않은 수 많은 문서 이미지에 대해 pre-training하여 문서의 특징과 패턴을 학습하고, 그 후 Document Layout Analysis과 같은 작업에 backbone 네트워크로 적용할 수 있다. 이 방식으로 문서 이미지 분류, 표 검출, 글자 검출 등에서 성능을 높일 수 있다. pre-training의 경우 라벨링되지 않은 대량의 데이터에 대한 패턴과 특성을 학습할 수 있다. 따라서 오버피팅을 방지하여 일반화 능력이 더 향상될 수 있고, 랜덤 초기화된 weight로 학습.. 2024. 7. 5.
Self-Supervised Learning self-supervised learning은 라벨 없이 데이터를 학습하는 방법으로, 데이터 내의 구조나 속성을 활용하여 모델을 학습시킨다. 다양한 방식으로 구현될 수 있으며, 특히 이미지 인식 모델에 사용할 수 있다.self-supervised learning은 데이터 자체를 사용하여 "가상 라벨"을 생성한다. 이런 가상 라벨은 데이터의 일부분을 이용해 다른 일부분을 예측하는 방식으로 생성된다. 이를 통해 모델이 데이터의 중요한 특성을 학습할 수 있다.주요 self-supervised learning 방법Masked Image Modeling (MIM)이미지의 일부 패치를 마스킹하고, 모델이 마스킹된 부분을 예측하도록 학습하는 방법.(1) 이미지를 고정 크기의 패치로 나눈다.(2) 일부 패치를 무작위로.. 2024. 6. 14.
수식 인식 BTTR 모델 필기체 수식 인식에 encoder-decoder 모델이 적용되어 괜찮은 성능을 보이고 있다. Decoder 부분에는 RNN이 적용되었는데 long Latex sequence에 비효율적인 단점이 있었다. Handwritten Mathematical Expression Recognition with Bidirectionally Trained Transformer 논문[1]에서는 Decoder 부분에 RNN 대신 Transformer를 적용한다. 이 논문에서는 CROHME 2014, 2016, 2019 데이터셋에 대해서 성능이 각각 2.23%, 1.92%, 2.28%올랐다고 한다. Introduction Handwritten Mathematical Expression Recognition (HMER) 기술은 .. 2024. 1. 9.
Weight 초기화 방법들 딥러닝 신경망의 weight 초기화는 학습 동안의 수렴 속도와 최종 성능에 큰 영향을 미칠 수 있다. 잘못된 초기화는 학습의 불안정성이나 수렴하지 않는 현상을 초래할 수 있어서 초기화 방법은 신경망 학습에서 중요한 부분이라고 할 수 있다. Zero Initialization 모든 가중치를 0으로 초기화한다. 이 방법은 실제로 사용하기에 적절하지 않다. 모든 뉴런이 동일한 출력을 생성하기 때문에 학습하는 동안 갱신이 되지 않는다. 대칭성 문제로 학습이 힘들지만 bias를 초기화하는데 사용할 수는 있다. Random Initialization 가중치를 작은 랜덤 값으로 초기화한다. 너무 큰 값이나 너무 작은 값으로 초기화하면 학습이 제대로 되지 않을 수도 있다. Xavier (Glorot) Initializ.. 2023. 9. 19.
MixNet 논문 리뷰 (Text Detection) 작은 글자를 검출하는 것은 불규칙한 위치, 다른 스타일, 조명 조건 등 여러가지 요인으로 인해 쉽지 않다. MixNet [1] 논문에서는 text를 정확하게 검출하기 위해 CNN과 Transformer의 장점을 결합한 MixNet을 제안한다. MixNet을 핵심 모듈은 두 가지인데, 첫번째는 Feature Shuffle Network (FSNet)이다. FSNet은 MixNet의 backbone으로 새로운 방법인 feature shuffling을 도입했다. 이 방법은 여러 scale 간의 feature 교환을 허용하므로 고해상도의 고품질 feature를 생성할 수 있다. 이 방법은 ResNet이나 HRNet과 같은 대중적인 방법보다 더 낫다고한다. 두번째는 Central Transformer Block .. 2023. 9. 10.
ConvNext 논문 리뷰 2022년에 페이스북에서 A ConvNet for the 2020s (ConvNext) 라는 논문을 발표했다. CNN이 이미지 인식 분야에서 아주 뛰어난 기술이었지만 Vision Transformer의 등장으로 CNN의 성능을 뛰어넘게 되면서 Transformer 기반의 이미지 처리에 대한 연구가 활발히 진행되고 있다. 이 논문은 Transformer가 아닌 순수 CNN을 기반으로 Vision Transformer(ViT), Swin Transformer를 뛰어넘는 ConvNext라는 모델을 제안한다. Modernizing a ConvNet: a Roadmap 논문에서는 ResNet-50/ResNet-200을 시작점으로하여 다양한 기법을 적용해서 성능을 향상시킨다. 그림 1에서 남색 바는 ResNet-5.. 2023. 8. 17.
반응형