[배경]
안녕하세요, 데이커 여러분! 긴급 상황이 발생했습니다!
데이콘 데이터 사이언티스트 chanmuzi가 아주 중요한 데이터셋의 레이블을 전부 날려버렸어요!
4일 후에는 이 데이터셋을 활용한 프로젝트가 예정되어 있어 시간이 정말 촉박하고,
그렇다고 4일동안 이 많은 샘플들을 직접 확인하여 손으로 모두 Labeling을 하기에는 현실적으로 불가능한 상황에 직면해있습니다.
여러분의 통계적 지식과 인공지능 지식을 발휘하여 chanmuzi를 이 위기에서 구해주세요!
(이번 대회는 23.09.22 10:00 금요일 ~ 23.09.25 10:00 월요일의 일정으로 약 3박 4일간 진행되므로 짧은 기간 동안 여러분의 집중력과 효율성을 최대로 발휘해보세요!)
[주제]
긴급 레이블 복구: 뉴스 데이터 6개 카테고리 분류
[설명]
4일 내에 사용 예정인 이 데이터셋은 6개의 카테고리로 분류되어야 하는 6만 행의 csv 파일입니다.
이 파일에는 'id'와 'text' 필드만 있을 뿐, 카테고리 정보는 사라져 버렸습니다.
여러분의 목표는 이 'text'가 어떤 카테고리에 속하는지를 최대한 정확하게 예측하는 것입니다!
(제공되는 데이터셋은 단 하나의 csv파일이며 카테고리 정보가 포함되지 않습니다)
아래 표를 참고하여 데이터셋의 'category' 필드를 복구해주세요!
[주최 / 주관]
데이콘
[참가 대상]
데이커라면 누구나 참가 가능