HAI(하이)! - Hecto AI Challenge : 2025 하반기 헥토 채용 AI 경진대회

데이터 셋과 모델 관련

2026.01.05 23:23 709 Views

몇 가지 궁금증이 생겼는데 다른 분들의 견해가 궁금해서 여기에 적어봅니다!


  1. 데이터셋을 혼합해서 쓰시는 편인가요? 데이터는 다다익선일까요?
  2. 또, 모델의 경우 규정에 위배되지 않는 선에서 직접 다른 모델들을 직렬로 연결해서 쓰는 게 더 좋은 편인가요?
Login Required
0 / 1000
디모
2026.01.05 23:46

저는 도메인 일반화 문제를 완화하기 위해서 13가지 데이터 세트를 혼합해서 학습해보았습니다... 하나의 데이터가 50만장이 넘어가서 비율 조절해서 train만 12만장 정도로 학습했습니다. 증강까지하면 7배 늘어나니까 제 나름대로는 상당히 많은 데이터로 학습했다고 생각했습니다. 근데 test 셋이랑 뭐가 안맞는지 대부분 0.55~0.68 사이로 나오네요. 혹시 다른분 어떻게 데이터를 만져야하는지 의견좀 여쭙고싶습니다...

디모
2026.01.05 23:47

위변조 신호도 학습하기 위해서 Rethinking the Up-Sampling Operations in CNN-based Generative Network for Generalizable Deepfake Detection 이 논문 방법론이랑 + RGB 해서 입력으로 넣었고 Xception 학습했습니다. vit나 efficientnet으로 학습하니까 왜인지 loss가 잘 안떨어지더라구요.

LEXXSH
2026.01.06 14:20

1. 데이터셋을 혼합해서 쓰는 편입니다. 다다익선이라기 보다는, 어떤 모델로 딥페이크를 만들었냐가 중요한것 같습니다. 아티팩트가 다르니깐요.
2. 직렬로 연결해서 쓴다는게 정확히 어떤 표현인지는 모르겠지만, 기본적인 모델 백본 하나를 기반으로 사용하고 있습니다.