HAI(하이)! - Hecto AI Challenge : 2025 상반기 헥토 채용 AI 경진대회

채용 | 알고리즘 | 헥토 | 비전 | 분류

 

학습시간이 다들 얼마나 걸리시나요?

2025.06.07 17:09 755 조회

전 4060ti 16gb  로컬에서 돌리는데 에포크당 17분 걸려서 여러 기법을 테스트를 못해보고 있네요ㅜ

로그인이 필요합니다
0 / 1000
basslibrary
2025.06.07 17:39

모델과 데이터 증강에 따라 많이 달라집니다. 그래도 17분은 많이 걸리는 거 같습니다.
제가 사용하는 모델은 eva 모델 중 작은 모델( 300M params )을 사용중인데, 
RTX-5070( 30.87 TFlops ) 에서 1 epoch 당 5분 걸립니다. ( bfloat16 사용 )
RTX-4060ti( 22.05 TFlops )는 TFlops 비례해서 나오는 것 같기 때문에 약 22/30 정도 속도는 나올겁니다.

zzuniie
2025.06.07 17:46

아 제가 전략 구성하면서 모델 구조를 너무 바꾸다 보니 너무 무거워졌네요..ㅎㅎ; 

LEXXSH
2025.06.07 19:01

저도 아직 학습 최적화는 진행을 하지않은 단계라 30분정도 걸리네요 ㅎㅎ..

zzuniie
2025.06.07 20:56

이제 최적화만 하시면 .. ㄷㄷ

INTLAB_채운
2025.06.07 19:17

저는 1에폭에 validation 포함해서 3~4분 걸려요

과적합방지위원회
2025.06.07 19:21

우와 .. 혹시 GPU 어떤거 사용하세요?

zzuniie
2025.06.07 20:57

헉 저도 vit base 모델 사용하면 4~5분 정도로 떨어지는데 과적합이 생겨서 버렸습니다

과적합방지위원회
2025.06.07 20:43

저도 에포크당 17~18분정도 걸리네요!

zzuniie
2025.06.07 20:58

너무 오래걸리고 메모리를 다 잡아먹어서 이것저것 해볼 수 가 없네요ㅜㅜ

과적합방지위원회
2025.06.08 21:48

AMP하면 성능은 조금 떨어지는데, 그래도 시간은 줄더라고요.

NAJUNGHWAN
2025.06.07 22:24

성능 검증시에는 전체 데이터를 다 넣지 말고 샘플링해서 일부만 학습하는 좋은 방법이 있습니다. 지표가 아주 정확하진 않겠지만 일반화 관점에서 좋은 방법이라면 샘플링으로도 검증하기 충분합니다.

yong_again
2025.06.08 15:10

저는 1에폭 당 10분 내외 (증강 포함) 정도 걸리네요, 4070ti(12GB)

귀여미
2025.06.09 05:10

H100 사용하면 1 에폭에 3-4분 걸리는데 너무 오버킬이라 a40 씁니다 train 8분, valid 2분 걸립니다

귀여미
2025.06.11 16:34

convnext_v2 모델 쓰고 한 애폭당 시간1/3로 줄고 성능도 많이 올랐습니다 

zzuniie
2025.06.11 16:35

메모리 사용량은 얼마나 나오시나요?

귀여미
2025.06.11 16:42

배치사이즈 32 + amp, 384*384입력 기준으로 해드만 학습할때는 대락4gb 백본까지 모두 학습하는데 24기가 정도 쓰네요 정확한 모델명은 “ convnextv2_base.fcmae_ft_in22k_in1k_384” 입니다

zzuniie
2025.06.11 16:44

헉.. 전 최대 16이라 지금도 15기가나 사용해서 convnext는 도전을 못해보겠어요ㅜ 전에 한번 base모델인지 tiny인지 기억은 안나는데 두시간 걸렸던,.. 에포크당

귀여미
2025.06.11 16:49

배치사이즈 내려보세요 윈도우 특성상 vram넘어서면 공유메모리로 들어가서 학습 속도가 10배이상 느려지는 현상이 있습니다. 88.72M 파라미터라 그렇게 느린 모델이 아닐거에요. 성능 포기하고 224 모델 쓰셔도 괜찮을 겁니당