반응형 Computer Vision36 A Hybrid Approach for Document Layout Analysis in Document images 논문 리딩 논문 제목은 A Hybrid Approach for Document Layout Analysis in Document images로 문서 레이아웃 분석을 위해 개선된 Transformer 기반의 Detection 방법을 통해 높은 성능을 달성한 논문이다.contribution은 다음과 같다.1. backbone으로부터 high-level의 query feature를 얻기 위한 개선된 Query Encoding Mechanism과 Query-Selection Strategies를 사용한다.2. decoder의 one-to-one matching 전략과 one-to-many matching 전략을 혼합하는 query selection 방법을 사용한다. Methodology4 단계로 구분할 수 있다.(1) 먼.. 2024. 7. 5. DiT (Self-supervised Pre-training for Document Image Transformer) Document Image Transformer 라는 이름에서 알 수 있듯이 문서 이미지 관련 Task를 위해 고안된 Self-supervised Pre-training 방법이다. Self-supervised 방식으로 라벨링되지 않은 수 많은 문서 이미지에 대해 pre-training하여 문서의 특징과 패턴을 학습하고, 그 후 Document Layout Analysis과 같은 작업에 backbone 네트워크로 적용할 수 있다. 이 방식으로 문서 이미지 분류, 표 검출, 글자 검출 등에서 성능을 높일 수 있다. pre-training의 경우 라벨링되지 않은 대량의 데이터에 대한 패턴과 특성을 학습할 수 있다. 따라서 오버피팅을 방지하여 일반화 능력이 더 향상될 수 있고, 랜덤 초기화된 weight로 학습.. 2024. 7. 5. Self-Supervised Learning self-supervised learning은 라벨 없이 데이터를 학습하는 방법으로, 데이터 내의 구조나 속성을 활용하여 모델을 학습시킨다. 다양한 방식으로 구현될 수 있으며, 특히 이미지 인식 모델에 사용할 수 있다.self-supervised learning은 데이터 자체를 사용하여 "가상 라벨"을 생성한다. 이런 가상 라벨은 데이터의 일부분을 이용해 다른 일부분을 예측하는 방식으로 생성된다. 이를 통해 모델이 데이터의 중요한 특성을 학습할 수 있다.주요 self-supervised learning 방법Masked Image Modeling (MIM)이미지의 일부 패치를 마스킹하고, 모델이 마스킹된 부분을 예측하도록 학습하는 방법.(1) 이미지를 고정 크기의 패치로 나눈다.(2) 일부 패치를 무작위로.. 2024. 6. 14. 수식 인식 BTTR 모델 필기체 수식 인식에 encoder-decoder 모델이 적용되어 괜찮은 성능을 보이고 있다. Decoder 부분에는 RNN이 적용되었는데 long Latex sequence에 비효율적인 단점이 있었다. Handwritten Mathematical Expression Recognition with Bidirectionally Trained Transformer 논문[1]에서는 Decoder 부분에 RNN 대신 Transformer를 적용한다. 이 논문에서는 CROHME 2014, 2016, 2019 데이터셋에 대해서 성능이 각각 2.23%, 1.92%, 2.28%올랐다고 한다. Introduction Handwritten Mathematical Expression Recognition (HMER) 기술은 .. 2024. 1. 9. Weight 초기화 방법들 딥러닝 신경망의 weight 초기화는 학습 동안의 수렴 속도와 최종 성능에 큰 영향을 미칠 수 있다. 잘못된 초기화는 학습의 불안정성이나 수렴하지 않는 현상을 초래할 수 있어서 초기화 방법은 신경망 학습에서 중요한 부분이라고 할 수 있다. Zero Initialization 모든 가중치를 0으로 초기화한다. 이 방법은 실제로 사용하기에 적절하지 않다. 모든 뉴런이 동일한 출력을 생성하기 때문에 학습하는 동안 갱신이 되지 않는다. 대칭성 문제로 학습이 힘들지만 bias를 초기화하는데 사용할 수는 있다. Random Initialization 가중치를 작은 랜덤 값으로 초기화한다. 너무 큰 값이나 너무 작은 값으로 초기화하면 학습이 제대로 되지 않을 수도 있다. Xavier (Glorot) Initializ.. 2023. 9. 19. MixNet 논문 리뷰 (Text Detection) 작은 글자를 검출하는 것은 불규칙한 위치, 다른 스타일, 조명 조건 등 여러가지 요인으로 인해 쉽지 않다. MixNet [1] 논문에서는 text를 정확하게 검출하기 위해 CNN과 Transformer의 장점을 결합한 MixNet을 제안한다. MixNet을 핵심 모듈은 두 가지인데, 첫번째는 Feature Shuffle Network (FSNet)이다. FSNet은 MixNet의 backbone으로 새로운 방법인 feature shuffling을 도입했다. 이 방법은 여러 scale 간의 feature 교환을 허용하므로 고해상도의 고품질 feature를 생성할 수 있다. 이 방법은 ResNet이나 HRNet과 같은 대중적인 방법보다 더 낫다고한다. 두번째는 Central Transformer Block .. 2023. 9. 10. 이전 1 2 3 4 5 6 다음 반응형