분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
HAI(하이)! - Hecto AI Challenge : 2025 하반기 헥토 채용 AI 경진대회
데이터 셋과 모델 관련
몇 가지 궁금증이 생겼는데 다른 분들의 견해가 궁금해서 여기에 적어봅니다!
위변조 신호도 학습하기 위해서 Rethinking the Up-Sampling Operations in CNN-based Generative Network for Generalizable Deepfake Detection 이 논문 방법론이랑 + RGB 해서 입력으로 넣었고 Xception 학습했습니다. vit나 efficientnet으로 학습하니까 왜인지 loss가 잘 안떨어지더라구요.
1. 데이터셋을 혼합해서 쓰는 편입니다. 다다익선이라기 보다는, 어떤 모델로 딥페이크를 만들었냐가 중요한것 같습니다. 아티팩트가 다르니깐요.
2. 직렬로 연결해서 쓴다는게 정확히 어떤 표현인지는 모르겠지만, 기본적인 모델 백본 하나를 기반으로 사용하고 있습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저는 도메인 일반화 문제를 완화하기 위해서 13가지 데이터 세트를 혼합해서 학습해보았습니다... 하나의 데이터가 50만장이 넘어가서 비율 조절해서 train만 12만장 정도로 학습했습니다. 증강까지하면 7배 늘어나니까 제 나름대로는 상당히 많은 데이터로 학습했다고 생각했습니다. 근데 test 셋이랑 뭐가 안맞는지 대부분 0.55~0.68 사이로 나오네요. 혹시 다른분 어떻게 데이터를 만져야하는지 의견좀 여쭙고싶습니다...