저해상도 조류 이미지 분류 AI 경진대회

사용 가능한 사전 학습모델 정리

2024.04.18 18:56 1,795 Views

대회 규칙에 부합하는 사전학습 모델을 정리해봤습니다.


1.

Swin Transformer v2 :  GitHub - microsoft/Swin-Transformer: This is an official implementation for "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows".

ImageNet-22K, ImageNet-1K 사용

huggingface, timm 통해 사용 가능


2.

ConvNeXt-V2 : GitHub - facebookresearch/ConvNeXt-V2: Code release for ConvNeXt V2 model

ImageNet-22K, ImageNet-1K 사용

huggingface, timm 통해 사용 가능


3.

MaxViT : GitHub - google-research/maxvit: [ECCV 2022] Official repository for "MaxViT: Multi-Axis Vision Transformer". SOTA foundation models for classification, detection, segmentation, image quality, and generative modeling...

ImageNet-21K, ImageNet-1K

timm 통해 사용 가능


모델들의 대략적인 성능은 pytorch-image-models/results/results-imagenet.csv at main · huggingface/pytorch-image-models · GitHub 를 참고하셔도 좋을 것 같습니다. 베이스라인 코드기준으로는 swinv2가 가장 좋았습니다.


잘못된 부분이 있으면 댓글 달아주시면 감사하겠습니다.

로그인이 필요합니다
0 / 1000
비비드백
2024.04.22 14:20

감사합닌다!

ssung
2024.04.29 14:26

EVA02 : https://github.com/baaivision/EVA/tree/master/EVA-02/asuka
  - EVA02-L 이미지넷 전용 사전학습 모델이 있는 것 같아서 공유 드립니다.(IN-21K)
  - 원래 모델은 이미지넷을 비롯한 다양한 데이터 셋을 합쳐서(얘네는 Merged-38M 데이터셋 이라고 하더라구요) 사전학습
  - MIM(Masked Image Modeling) 사용해서 좋은 성능을 낼 것으로 기대됨.
  - timm에서도 사용 가능합니다.

CAFormer: https://github.com/sail-sg/metaformer
  - IN-1K, IN-21K로 사전학습
  - timm에서도 사용 가능합니다.
  - convolution, transformer 블록을 같이 사용했다고 합니다. 아이디어는 간단하지만 CNN, ViT의 특징들을 함께 가질 것으로 예상됨

파이썬초보만
2024.04.29 16:44

삭제된 댓글입니다

파이썬초보만
2024.04.29 16:49

감사합니다.
eva02모델은 사전학습 단계에서 외부 데이터를 사용한 걸로 나와있습니다(다른 데이터셋을 통해 학습한 eva-clip모델을 통해 mim 진행)

고세구
2024.05.02 09:21

eva02모델은 mim model pretrain할때 merge 38M데이터말고 Imagenet 21k 데이터만 사용한거면 상관없지않을까요? fine tuning모델에도 pretrain할 때 어떤 데이터 썼는지 명시되어있는 것 같은데요

헐크야
2024.05.02 16:49

참고 하겠습니다. 감사합니다!

woongzboy
2024.06.24 23:37

안녕하세요.. 대회는 끝났지만 연습을 하고 있어서요. 무지해서 그런데 이 대회에서 EfficientNet_B0, B3 모델은 사용하지 못하는건가요?

NN_is_all_you_need
2024.06.25 18:03

EfficientNet_B0, B3 모델 모두 이 대회에서 사용 가능했던 모델들입니다. 
이 대회는 저해상도 이미지가 가지고 있는 비교적 적은 정보로 높은 분류 성능을 내야했기 때문에 
SOTA 모델이나 최신 모델들을 많이 공유해주신 것 같습니다.

woongzboy
2024.06.26 16:48

감사합니다!