분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
대회 데이터중에 컬럼의 특정 셀이 밀려있습니다
예로
(know_2018, know2018_test)의 bq37_1(학과)에 있어야할 항목이 bq37(학력)에 있고
(know_2019, know2019_test)의 bq27_1(학과)에 있어야할 항목이 bq27(학력)에 있습니다
한 칸만 밀린게 아니라 여러칸이 밀린 셀도 존재하네요 이런 것들은 저희가 처리해야하나요? 아니면 주최측에서 수정해서 제공해주시나요?
+
다른 컬럼들은 확인해보지는 않았습니다
+
그리고 2017 train데이터에 직업코드가 999999인건 뭔가요? 결측치인가요?
질문이 있습니다.
만약 18 test의 1000번째 행이 'bq4'열부터 뒤로 한 열씩 밀려있다면, 그 행을 특정해서 shift 함수를 이용하여 처리하면 data leakage에 해당하나요??
안녕하세요 자반님,
해당 사항은 data leakage로 취급하지 않습니다.
감사합니다
데이콘 드림
+ 추가 답변입니다.
Q: 그리고 2017 train데이터에 직업코드가 999999인건 뭔가요? 결측치인가요?
A: 999999는 해당 년도 코드값이 부여되지 않은 직업입니다. 해당 라벨은 데이터 설명에 추가해놓았습니다.
감사합니다.
그럼 test knowcode에도 999999값이 존재할 수 있나요?
안녕하세요
test 라벨 값에 대한 정보는 알려드릴 수 없습니다.
감사합니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 작성자님,
해당 데이터는 수작업으로 입력되어 특정 셀이 밀리거나 설문과 맞지 않는 문답이 있을 수 있습니다.
때문에 1차적으로 필터링을하여 배포하였으나 여전히 몇몇 데이터에 오기가 있을 수 있습니다.
해당 부분은 참가자분들의 재량으로 처리하여 추론해 주시기 바랍니다.
감사합니다.