분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[DACON 답변 요청] test_err 데이터 문의
안녕하세요.
sample_submission에서는 user_id가 30000부터 44998까지 있습니다. (총 14999개의 고윳값)
허나 test_err에는 user_id 43262 값이 없습니다. 그래서 test_err에는 총 14998개의 고윳값이 존재합니다.
의도적으로 test_err에서 user_id 43262의 값이 제공 되지 않는 건지 궁금합니다.
P.S 베이스라인에서는 unique().max() - unique().min() + 1 로직을 활용해 test_err의 user_id 고윳값 개수를 산출하는데, 이 방법은 고윳값 개수를 올바르게 산출하지 않습니다. [1, 3, 10] 인 list에서 max() - min() + 1을 적용해서 나온 10을 가지고 리스트의 길이가 10라고 주장하는 것과 같습니다. 그래서 베이스라인에서는 test_err의 user_id 고윳값이 14999개라고 하는데, 실제로 14998개만 존재합니다.
하... 그래서 하나가 차이가 났었군요!
안녕하세요 SDSTony님
문의사항에 답변드립니다.
첫 번째, 주어진 기간 내에 error가 발생하지 않는 경우 test_err에 user_id가 존재하지 않습니다. 따라서 test_err에서 user_id 43262가 없을 경우, 해당 유저는 err가 발생하지 않은 것 입니다.
두 번째, "unique().max() - unique().min() + 1"코드는 user_id 가 다음과 같이 연속적으로 존재한다는 사실에 기반한 코드입니다.
- 학습 데이터(user_id : 10000 ~ 24999, 15000명)
- 테스트 데이터는(user_id : 30000 ~ 44998, 14999명)
의미를 더 명확히 하기 위해 다음과 같이 수정하였습니다.
---------------------------------------------
# 데이터 설명을 확인하면
# ueser_id가 10000부터 24999까지 총 15000개가 연속적으로 존재.
train_user_id_max = 24999
train_user_id_min = 10000
train_user_number = 15000
---------------------------------------------
# 데이터 설명을 확인하면
# test 데이터는 ueser_id가 30000부터 44998까지 총 14999개가 존재.
test_user_id_max = 44998
test_user_id_min = 30000
test_user_number = 14999
---------------------------------------------
감사합니다.
- 데이콘 드림
감사합니다.
데이콘 드림.
감사합니다. 이해 됐습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
test_quality에는 user_id 43262 정보가 존재하므로, 해당 정보를 응용해 user 43262에 대한 예측값을 산출할 수 있을 것 같은데, test_err의 데이터 정합성 측면에서 43262만 없는게 특이해서 여쭙게 됐습니다.