분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
사용 가능한 사전 학습모델 정리
대회 규칙에 부합하는 사전학습 모델을 정리해봤습니다.
1.
Swin Transformer v2 : GitHub - microsoft/Swin-Transformer: This is an official implementation for "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows".
ImageNet-22K, ImageNet-1K 사용
huggingface, timm 통해 사용 가능
2.
ConvNeXt-V2 : GitHub - facebookresearch/ConvNeXt-V2: Code release for ConvNeXt V2 model
ImageNet-22K, ImageNet-1K 사용
huggingface, timm 통해 사용 가능
3.
ImageNet-21K, ImageNet-1K
timm 통해 사용 가능
모델들의 대략적인 성능은 pytorch-image-models/results/results-imagenet.csv at main · huggingface/pytorch-image-models · GitHub 를 참고하셔도 좋을 것 같습니다. 베이스라인 코드기준으로는 swinv2가 가장 좋았습니다.
잘못된 부분이 있으면 댓글 달아주시면 감사하겠습니다.
EVA02 : https://github.com/baaivision/EVA/tree/master/EVA-02/asuka
- EVA02-L 이미지넷 전용 사전학습 모델이 있는 것 같아서 공유 드립니다.(IN-21K)
- 원래 모델은 이미지넷을 비롯한 다양한 데이터 셋을 합쳐서(얘네는 Merged-38M 데이터셋 이라고 하더라구요) 사전학습
- MIM(Masked Image Modeling) 사용해서 좋은 성능을 낼 것으로 기대됨.
- timm에서도 사용 가능합니다.
CAFormer: https://github.com/sail-sg/metaformer
- IN-1K, IN-21K로 사전학습
- timm에서도 사용 가능합니다.
- convolution, transformer 블록을 같이 사용했다고 합니다. 아이디어는 간단하지만 CNN, ViT의 특징들을 함께 가질 것으로 예상됨
삭제된 댓글입니다
감사합니다.
eva02모델은 사전학습 단계에서 외부 데이터를 사용한 걸로 나와있습니다(다른 데이터셋을 통해 학습한 eva-clip모델을 통해 mim 진행)
eva02모델은 mim model pretrain할때 merge 38M데이터말고 Imagenet 21k 데이터만 사용한거면 상관없지않을까요? fine tuning모델에도 pretrain할 때 어떤 데이터 썼는지 명시되어있는 것 같은데요
참고 하겠습니다. 감사합니다!
안녕하세요.. 대회는 끝났지만 연습을 하고 있어서요. 무지해서 그런데 이 대회에서 EfficientNet_B0, B3 모델은 사용하지 못하는건가요?
EfficientNet_B0, B3 모델 모두 이 대회에서 사용 가능했던 모델들입니다.
이 대회는 저해상도 이미지가 가지고 있는 비교적 적은 정보로 높은 분류 성능을 내야했기 때문에
SOTA 모델이나 최신 모델들을 많이 공유해주신 것 같습니다.
감사합니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
감사합닌다!