본문 바로가기
반응형

전체 글78

허깅페이스 Transformers 라이브러리 허깅페이스의 Transformers 라이브러리는 Transformer 구조 기반의 다양한 모델을 지원하여 개발에 활용할 수 있다. pre-training된 모델도 지원하기 때문에 모델을 처음부터 학습 시킬 필요가 없어 시간과 리소스를 절약할 수 있다. 초기에는 자연어처리 관련 모델 위주로 지원했지만 현재는 여러 가지 도메인에 대한 모델을 지원한다. 2024년 기준 157개의 모델 아키텍처를 지원하고 있다. 또한 모델에 들어가는 컴포넌트를 모듈화해서 제공하기도 한다.Transformers 라이브러리는 pip를 통해 설치할 수 있다.pip install transformersPipeline을 이용한 간단한 사용법Transformers에서 가장 간단하게 사용할 수 있는 방법은 pipeline API이다. pi.. 2025. 4. 17.
한국어 자연어처리 방법 한국어는 어휘, 문법 구조, 형태소 체계 등의 측면에서 영어나 다른 언어와 구별되는 독특한 특성을 가지고 있다. 따라서 한국어 자연어처리(NLP)를 수행할 때는 영어에 비해 조금 더 고려해야할 사항이 많다. 한국어 자연어처리의 어려움한국어는 교착어로 형태소 분석기가 필요영어에 비해 띄어쓰기가 잘 지켜지지 않음어순이 그렇게 중요하지 않음한자어라는 특성상 하나의 음절도 다른 의미를 가질 수 있음주어가 쉽게 생략됨데이터와 언어에 특화된 모델이 영어에 비해 부족교착어인 한국어의 특성으로 인해 한국어는 Tokenizer(토크나이저)로 형태소 분석기를 사용하는 것이 보편적이다. 다양한 형태소 분석기가 존재하므로 원하는 Task에 따라 맞는 형태소 분석기를 선택할 수 있다. 또 text를 어떻게 단위별로 나누어 처리.. 2025. 4. 15.
텐서 업샘플링 관련 - nn.Upsample(), ConvTranspose2d() nn.Upsample()PyTorch의 nn.Upsample()은 입력 텐서를 ‘업샘플링(Up-sampling)’해주는 기능을 제공한다. 입력 텐서의 spatial 차원(예: 높이와 너비)을 원하는 크기 또는 배율로 늘려서 출력 텐서를 생성하는데, 일반적으로 이미지 처리나 Feature map을 확대하는 과정에서 자주 사용한다. 아래 코드와 같이 [1, 3, 64, 64]인 텐서를 nn.Upsample을 통해 [1, 3, 128, 128]로 변형할 수 있다.import torchimport torch.nn as nn# 2D 업샘플링 예시upsample = nn.Upsample(size=(128, 128), mode='nearest')input_tensor = torch.randn(1, 3, 64, 64).. 2025. 1. 8.
A Hybrid Approach for Document Layout Analysis in Document images 논문 리딩 논문 제목은 A Hybrid Approach for Document Layout Analysis in Document images로 문서 레이아웃 분석을 위해 개선된 Transformer 기반의 Detection 방법을 통해 높은 성능을 달성한 논문이다.contribution은 다음과 같다.1. backbone으로부터 high-level의 query feature를 얻기 위한 개선된 Query Encoding Mechanism과 Query-Selection Strategies를 사용한다.2. decoder의 one-to-one matching 전략과 one-to-many matching 전략을 혼합하는 query selection 방법을 사용한다. Methodology4 단계로 구분할 수 있다.(1) 먼.. 2024. 7. 5.
DiT (Self-supervised Pre-training for Document Image Transformer) Document Image Transformer 라는 이름에서 알 수 있듯이 문서 이미지 관련 Task를 위해 고안된 Self-supervised Pre-training 방법이다. Self-supervised 방식으로 라벨링되지 않은 수 많은 문서 이미지에 대해 pre-training하여 문서의 특징과 패턴을 학습하고, 그 후 Document Layout Analysis과 같은 작업에 backbone 네트워크로 적용할 수 있다. 이 방식으로 문서 이미지 분류, 표 검출, 글자 검출 등에서 성능을 높일 수 있다. pre-training의 경우 라벨링되지 않은 대량의 데이터에 대한 패턴과 특성을 학습할 수 있다. 따라서 오버피팅을 방지하여 일반화 능력이 더 향상될 수 있고, 랜덤 초기화된 weight로 학습.. 2024. 7. 5.
Self-Supervised Learning self-supervised learning은 라벨 없이 데이터를 학습하는 방법으로, 데이터 내의 구조나 속성을 활용하여 모델을 학습시킨다. 다양한 방식으로 구현될 수 있으며, 특히 이미지 인식 모델에 사용할 수 있다.self-supervised learning은 데이터 자체를 사용하여 "가상 라벨"을 생성한다. 이런 가상 라벨은 데이터의 일부분을 이용해 다른 일부분을 예측하는 방식으로 생성된다. 이를 통해 모델이 데이터의 중요한 특성을 학습할 수 있다.주요 self-supervised learning 방법Masked Image Modeling (MIM)이미지의 일부 패치를 마스킹하고, 모델이 마스킹된 부분을 예측하도록 학습하는 방법.(1) 이미지를 고정 크기의 패치로 나눈다.(2) 일부 패치를 무작위로.. 2024. 6. 14.
반응형