line-coupon

데이스쿨 할인 리턴즈

line-coupon-mobile

데이스쿨 할인 리턴즈

SW중심대학 디지털 경진대회_SW와 생성 AI의 만남 : AI 부문

SW중심대학 | AI부문 | 알고리즘 | 음성 | 도메인 적응 | AUC | Brier Score | ECE

상금 1,220 만원
938명 마감

대회안내 데이터 코드 공유 토크 리더보드

제출

설명

Dataset Info.

train [폴더]
55438개의 학습 가능한 32kHz 로 샘플링 된 오디오(ogg) 샘플
방음 환경에서 녹음된 진짜 사람 목소리(Real) 샘플과 방음 환경을 가정한 가짜 생성 목소리(Fake) 샘플
각 샘플 당 한명의 진짜 혹은 가짜 목소리가 존재

test [폴더]
50000개의 5초 분량의 32kHz 로 샘플링 된 평가용 오디오(ogg) 샘플
TEST_00000.ogg ~ TEST_49999.ogg
방음 환경 혹은 방음 환경이 아닌 환경 모두 존재하며, 각 샘플 당 최대 2명의 목소리(진짜 혹은 가짜)가 존재

unlabeled_data [폴더]
1264개의 5초 분량의 학습 가능한 32kHz 로 샘플링 된 Unlabeled 오디오(ogg) 샘플
평가용 오디오(ogg) 샘플과 동일한 환경이지만 Label은 제공되지 않음

train.csv [파일]
id : 오디오 샘플 ID
path : 오디오 샘플 경로
label : 진짜(real) 혹은 가짜(fake) 음성의 Class

test.csv [파일]
id : 평가용 오디오 샘플 ID
path : 평가용 오디오 샘플 경로

sample_submission.csv [파일] - 제출 양식
id : 평가용 오디오 샘플 ID
fake : 해당 샘플에 가짜 목소리가 존재할 확률 (0~1)
real : 해당 샘플에 진짜 목소리가 존재할 확률 (0~1)

※ 모든 음성 데이터는 '영어' 언어를 바탕으로 구성되어 있습니다.

※ 제공드리는 CSV 데이터를 엑셀로 열람하는 경우, 데이터가 비정상적으로 보이는 현상이 발생할 수 있으니 반드시 Pandas패키지와 같은 데이터툴을 이용하여 열람부탁드립니다.

상세