분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
FSI AIxData Challenge 2024 : 생성 AI
생성 데이터 관련 문의
안녕하세요,
생성 AI 모델에서 각 라벨당 100개씩 1,300개를 생성하여 제출하는데,
1. 분류 모델에 생성한 데이터 1,300개를 모두 적용해야하는지 궁금합니다.
그 이상 혹은 그 이하의 생성 데이터를 분류 모델에 적용해도 되나요?
2. 만약 1,300개 이상 적용 가능하다면, 생성 결과인 'syn_submission.csv' 파일을 제출할 때,
샘플링 및 다른 방법을 통해 생성한 데이터 중 1,300개만 제출하면 될까요?
합성데이터 추가 시 분류 결과가 안 좋아지는 문제를 겪고 있습니다.
혹시 해당 문제에 대해 경험이 있으신 분이나 해결책을 알고 계신가요?
특히, 데이터의 품질이나 합성 과정에서 주의해야 할 점이 있다면 공유해 주시면 감사하겠습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 문의주신 내용에 대한 답변입니다.
1) 분류 모델에 생성한 데이터를 적용하는 것은 자율입니다.
다만, 2차/3차 평가에서는 생성한 데이터를 바탕으로 분류 모델 성능 더 개선해나가는 지에 대해서도 평가되기 때문에 생성한 데이터를 가급적 분류 모델 성능 개선에 활용하는 것을 강하게 권장드립니다. (대회 개요 -> 설명 부분의 '※ 분류 AI 모델의 성능 개선에 생성 AI 모델을 활용하지 않는 경우에도 2차 평가에서 감점 요인으로 적용될 수 있음' 참고)
또한 리더보드 제출에 활용되는 syn_submission.csv (클래스 별 1000개씩 생성한 생성 데이터)는 생성한 데이터의 '익명성' 평가를 위한 제출이므로
분류 모델에 활용하는 생성 데이터와는 반드시 동일하지 않아도 됩니다.
즉, 13000개를 모두 활용하거나, 13000개 이상, 이하를 활용하여도 됩니다.
2)
위 답변에서 안내드린 것과 같이 syn_submission.csv는 익명성 평가(TCAP)를 위한 제출이며,
클래스 별 생성 데이터 1000개씩, 총 13000개의 ROW를 가지고 있는 생성 데이터셋을 제출하시면 됩니다.