생성 데이터 관련 문의

FSI AIxData Challenge 2024 : 생성 AI

생성 데이터 관련 문의

햇반

2024.08.07 13:42 1,821 조회

안녕하세요,

생성 AI 모델에서 각 라벨당 100개씩 1,300개를 생성하여 제출하는데,

1. 분류 모델에 생성한 데이터 1,300개를 모두 적용해야하는지 궁금합니다.

그 이상 혹은 그 이하의 생성 데이터를 분류 모델에 적용해도 되나요?

2. 만약 1,300개 이상 적용 가능하다면, 생성 결과인 'syn_submission.csv' 파일을 제출할 때,

샘플링 및 다른 방법을 통해 생성한 데이터 중 1,300개만 제출하면 될까요?

댓글 2개

로그인이 필요합니다

comment

0 / 1000

DACON.GM

2024.08.08 11:15

안녕하세요 문의주신 내용에 대한 답변입니다.
1) 분류 모델에 생성한 데이터를 적용하는 것은 자율입니다.
다만, 2차/3차 평가에서는 생성한 데이터를 바탕으로 분류 모델 성능 더 개선해나가는 지에 대해서도 평가되기 때문에 생성한 데이터를 가급적 분류 모델 성능 개선에 활용하는 것을 강하게 권장드립니다. (대회 개요 -> 설명 부분의 '※ 분류 AI 모델의 성능 개선에 생성 AI 모델을 활용하지 않는 경우에도 2차 평가에서 감점 요인으로 적용될 수 있음' 참고)

또한 리더보드 제출에 활용되는 syn_submission.csv (클래스 별 1000개씩 생성한 생성 데이터)는 생성한 데이터의 '익명성' 평가를 위한 제출이므로
분류 모델에 활용하는 생성 데이터와는 반드시 동일하지 않아도 됩니다.
즉, 13000개를 모두 활용하거나, 13000개 이상, 이하를 활용하여도 됩니다.

2)
위 답변에서 안내드린 것과 같이 syn_submission.csv는 익명성 평가(TCAP)를 위한 제출이며,
클래스 별 생성 데이터 1000개씩, 총 13000개의 ROW를 가지고 있는 생성 데이터셋을 제출하시면 됩니다.