SW중심대학 디지털 경진대회_SW와 생성AI의 만남 : AI 부문

SW중심대학 | AI부문 | 알고리즘 | 음성 | 도메인 적응 | AUC | Brier Score | ECE

  • moneyIcon 상금 : 1,220 만원
  • 896명 마감

설명

Dataset Info.

  • train [폴더]
  • 55438개의 학습 가능한 32kHz 로 샘플링 된 오디오(ogg) 샘플
  • 방음 환경에서 녹음된 진짜 사람 목소리(Real) 샘플과 방음 환경을 가정한 가짜 생성 목소리(Fake) 샘플
  • 각 샘플 당 한명의 진짜 혹은 가짜 목소리가 존재


  • test [폴더]
  • 50000개의 5초 분량의 32kHz 로 샘플링 된 평가용 오디오(ogg) 샘플
  • TEST_00000.ogg ~ TEST_49999.ogg
  • 방음 환경 혹은 방음 환경이 아닌 환경 모두 존재하며, 각 샘플 당 최대 2명의 목소리(진짜 혹은 가짜)가 존재


  • unlabeled_data [폴더]
  • 1264개의 5초 분량의 학습 가능한 32kHz 로 샘플링 된 Unlabeled 오디오(ogg) 샘플
  • 평가용 오디오(ogg) 샘플과 동일한 환경이지만 Label은 제공되지 않음


  • train.csv [파일]
  • id : 오디오 샘플 ID
  • path : 오디오 샘플 경로
  • label : 진짜(real) 혹은 가짜(fake) 음성의 Class


  • test.csv [파일]
  • id : 평가용 오디오 샘플 ID
  • path : 평가용 오디오 샘플 경로


  • sample_submission.csv [파일] - 제출 양식
  • id : 평가용 오디오 샘플 ID
  • fake : 해당 샘플에 가짜 목소리가 존재할 확률 (0~1)
  • real : 해당 샘플에 진짜 목소리가 존재할 확률 (0~1)


※ 모든 음성 데이터는 '영어' 언어를 바탕으로 구성되어 있습니다.

※ 제공드리는 CSV 데이터를 엑셀로 열람하는 경우, 데이터가 비정상적으로 보이는 현상이 발생할 수 있으니 반드시 Pandas패키지와 같은 데이터툴을 이용하여 열람부탁드립니다.

상세