저해상도 조류 이미지 분류 AI 경진대회

알고리즘 | 월간 데이콘 | Vision | 분류 | Macro F1 Score

인증서 + 데이스쿨
1,064명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

사용 가능한 사전 학습모델 정리

파이썬초보만

2024.04.18 18:56 4,273 조회

대회 규칙에 부합하는 사전학습 모델을 정리해봤습니다.

Swin Transformer v2 : GitHub - microsoft/Swin-Transformer: This is an official implementation for "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows".

ImageNet-22K, ImageNet-1K 사용

huggingface, timm 통해 사용 가능

ConvNeXt-V2 : GitHub - facebookresearch/ConvNeXt-V2: Code release for ConvNeXt V2 model

ImageNet-22K, ImageNet-1K 사용

huggingface, timm 통해 사용 가능

MaxViT : GitHub - google-research/maxvit: [ECCV 2022] Official repository for "MaxViT: Multi-Axis Vision Transformer". SOTA foundation models for classification, detection, segmentation, image quality, and generative modeling...

ImageNet-21K, ImageNet-1K

timm 통해 사용 가능

모델들의 대략적인 성능은 pytorch-image-models/results/results-imagenet.csv at main · huggingface/pytorch-image-models · GitHub 를 참고하셔도 좋을 것 같습니다. 베이스라인 코드기준으로는 swinv2가 가장 좋았습니다.

잘못된 부분이 있으면 댓글 달아주시면 감사하겠습니다.

댓글 9개

로그인이 필요합니다

comment

0 / 1000

비비드백

2024.04.22 14:20

감사합닌다!

ssung

2024.04.29 14:26

EVA02 : https://github.com/baaivision/EVA/tree/master/EVA-02/asuka
  - EVA02-L 이미지넷 전용 사전학습 모델이 있는 것 같아서 공유 드립니다.(IN-21K)
  - 원래 모델은 이미지넷을 비롯한 다양한 데이터 셋을 합쳐서(얘네는 Merged-38M 데이터셋 이라고 하더라구요) 사전학습
  - MIM(Masked Image Modeling) 사용해서 좋은 성능을 낼 것으로 기대됨.
  - timm에서도 사용 가능합니다.

CAFormer: https://github.com/sail-sg/metaformer
  - IN-1K, IN-21K로 사전학습
  - timm에서도 사용 가능합니다.
  - convolution, transformer 블록을 같이 사용했다고 합니다. 아이디어는 간단하지만 CNN, ViT의 특징들을 함께 가질 것으로 예상됨