분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
대회 데이터중에 컬럼의 특정 셀이 밀려있습니다
예로
(know_2018, know2018_test)의 bq37_1(학과)에 있어야할 항목이 bq37(학력)에 있고
(know_2019, know2019_test)의 bq27_1(학과)에 있어야할 항목이 bq27(학력)에 있습니다
한 칸만 밀린게 아니라 여러칸이 밀린 셀도 존재하네요 이런 것들은 저희가 처리해야하나요? 아니면 주최측에서 수정해서 제공해주시나요?
+
다른 컬럼들은 확인해보지는 않았습니다
+
그리고 2017 train데이터에 직업코드가 999999인건 뭔가요? 결측치인가요?
질문이 있습니다.
만약 18 test의 1000번째 행이 'bq4'열부터 뒤로 한 열씩 밀려있다면, 그 행을 특정해서 shift 함수를 이용하여 처리하면 data leakage에 해당하나요??
안녕하세요 자반님,
해당 사항은 data leakage로 취급하지 않습니다.
감사합니다
데이콘 드림
+ 추가 답변입니다.
Q: 그리고 2017 train데이터에 직업코드가 999999인건 뭔가요? 결측치인가요?
A: 999999는 해당 년도 코드값이 부여되지 않은 직업입니다. 해당 라벨은 데이터 설명에 추가해놓았습니다.
감사합니다.
그럼 test knowcode에도 999999값이 존재할 수 있나요?
안녕하세요
test 라벨 값에 대한 정보는 알려드릴 수 없습니다.
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 작성자님,
해당 데이터는 수작업으로 입력되어 특정 셀이 밀리거나 설문과 맞지 않는 문답이 있을 수 있습니다.
때문에 1차적으로 필터링을하여 배포하였으나 여전히 몇몇 데이터에 오기가 있을 수 있습니다.
해당 부분은 참가자분들의 재량으로 처리하여 추론해 주시기 바랍니다.
감사합니다.