분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 6th] git-large-coco GroupKFold ensemble
git-large-coco 모델로 학습을 진행하였습니다.
https://github.com/leeheewon-01/image_question_answering_dacon
[학습환경]
GPU : RTX 3090Ti (x3)
RAM : 256GB
[batch size 설정]
GiT 논문에서는 IMAGENET으로 학습할 때 batch size를 4096으로 했는데, 대회에서 제공한 데이터셋은 Imagenet 보다 작은 10만개의 데이터셋이므로,
그보다 작은 768로 batch size를 설정하였습니다.
GPU resource 상 batch size를 무한히 늘릴 수 없다보니,
per_device_train_batch_size를 8로 설정한 뒤, gradient_accumulation_steps을 32로 설정하여
batch size 768의 효과를 얻을 수 있게 하였습니다.
[ensemble]
모델의 성능을 높이고자, GroupKFold를 활용하여 hard voting ensemble을 적용하였습니다.
GroupKFold의 group에 image_id를 할당하였습니다.
아래 코드는 GroupKFold 코드입니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved