분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
HAI(하이)! - Hecto AI Challenge : 2025 하반기 헥토 채용 AI 경진대회
데이터 셋과 모델 관련
몇 가지 궁금증이 생겼는데 다른 분들의 견해가 궁금해서 여기에 적어봅니다!
위변조 신호도 학습하기 위해서 Rethinking the Up-Sampling Operations in CNN-based Generative Network for Generalizable Deepfake Detection 이 논문 방법론이랑 + RGB 해서 입력으로 넣었고 Xception 학습했습니다. vit나 efficientnet으로 학습하니까 왜인지 loss가 잘 안떨어지더라구요.
1. 데이터셋을 혼합해서 쓰는 편입니다. 다다익선이라기 보다는, 어떤 모델로 딥페이크를 만들었냐가 중요한것 같습니다. 아티팩트가 다르니깐요.
2. 직렬로 연결해서 쓴다는게 정확히 어떤 표현인지는 모르겠지만, 기본적인 모델 백본 하나를 기반으로 사용하고 있습니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저는 도메인 일반화 문제를 완화하기 위해서 13가지 데이터 세트를 혼합해서 학습해보았습니다... 하나의 데이터가 50만장이 넘어가서 비율 조절해서 train만 12만장 정도로 학습했습니다. 증강까지하면 7배 늘어나니까 제 나름대로는 상당히 많은 데이터로 학습했다고 생각했습니다. 근데 test 셋이랑 뭐가 안맞는지 대부분 0.55~0.68 사이로 나오네요. 혹시 다른분 어떻게 데이터를 만져야하는지 의견좀 여쭙고싶습니다...