토스 NEXT ML CHALLENGE : 광고 클릭 예측(CTR) 모델 개발

Algorithm | Recruit | Toss | Tabular | CTR | ML | Classification

  • moneyIcon Prize : 10,000,000 KRW
  • 1,597 Users D-32 to Close

 

데이터 명세

2025.09.08 10:00 1,099 Views

데이터 다운로드는 [링크]에서 가능합니다.


Dataset Info.

  • train.parquet [파일] :
  • 총 10,704,179개 샘플
  • 총 119개 ('clicked' Target 컬럼 포함) 컬럼 존재
  • gender : 성별
  • age_group : 연령 그룹
  • inventory_id : 지면 ID
  • day_of_week : 주번호
  • hour : 시간
  • seq : 유저 서버 로그 시퀀스
  • l_feat_* : 속성 정보 피처 (l_feat_14는 Ads set)
  • feat_e_* : 정보영역 e 피처
  • feat_d_* : 정보영역 d 피처
  • feat_c_* : 정보영역 c 피처
  • feat_b_* : 정보영역 b 피처
  • feat_a_* : 정보영역 a 피처
  • history_a_* : 과거 인기도 피처
  • clicked : 클릭 여부 (Label)


  • test.parquet [파일] :
  • 총 1,527,298개 샘플
  • 총 118개 ('ID' 식별자 컬럼 포함) 컬럼 존재
  • ID : 샘플 식별자
  • gender : 성별
  • age_group : 연령 그룹
  • inventory_id : 지면 ID
  • day_of_week : 주번호
  • hour : 시간
  • seq : 유저 서버 로그 시퀀스
  • l_feat_* : 속성 정보 피처 (l_feat_14는 Ads set)
  • feat_e_* : 정보영역 e 피처
  • feat_d_* : 정보영역 d 피처
  • feat_c_* : 정보영역 c 피처
  • feat_b_* : 정보영역 b 피처
  • feat_a_* : 정보영역 a 피처
  • history_a_* : 과거 인기도 피처


  • sample_submission.csv [파일] - 제출 양식
  • ID : 샘플 식별자
  • clicked : 광고를 클릭할 확률 (0 ~ 1)


※ 주최측의 내부 보안 정책에 따라 피처의 상세 의미는 의도적으로 공개하지 않으며 제시된 정보 내에서만 진행해야합니다.

※ 제공드리는 데이터를 엑셀로 열람하는 경우, 데이터가 비정상적으로 보이는 현상이 발생할 수 있으니 반드시 Pandas패키지와 같은 데이터툴을 이용하여 열람부탁드립니다.