데이터 셋과 모델 관련

HAI(하이)! - Hecto AI Challenge : 2025 하반기 헥토 채용 AI 경진대회

데이터 셋과 모델 관련

폭풍저그 콩진호

2026.01.05 23:23 795 Views

몇 가지 궁금증이 생겼는데 다른 분들의 견해가 궁금해서 여기에 적어봅니다!

데이터셋을 혼합해서 쓰시는 편인가요? 데이터는 다다익선일까요?
또, 모델의 경우 규정에 위배되지 않는 선에서 직접 다른 모델들을 직렬로 연결해서 쓰는 게 더 좋은 편인가요?

3 Comments

comment

0 / 1000

디모

2026.01.05 23:46

저는 도메인 일반화 문제를 완화하기 위해서 13가지 데이터 세트를 혼합해서 학습해보았습니다... 하나의 데이터가 50만장이 넘어가서 비율 조절해서 train만 12만장 정도로 학습했습니다. 증강까지하면 7배 늘어나니까 제 나름대로는 상당히 많은 데이터로 학습했다고 생각했습니다. 근데 test 셋이랑 뭐가 안맞는지 대부분 0.55~0.68 사이로 나오네요. 혹시 다른분 어떻게 데이터를 만져야하는지 의견좀 여쭙고싶습니다...

디모

2026.01.05 23:47

위변조 신호도 학습하기 위해서 Rethinking the Up-Sampling Operations in CNN-based Generative Network for Generalizable Deepfake Detection 이 논문 방법론이랑 + RGB 해서 입력으로 넣었고 Xception 학습했습니다. vit나 efficientnet으로 학습하니까 왜인지 loss가 잘 안떨어지더라구요.