KNOW 기반 직업 추천 알고리즘 경진대회

알고리즘 | 정형 | 분류 | 추천 | Macro f1 score

 

대회 데이터중에 컬럼의 특정 셀이 밀려있습니다

작성자 비공개
2021.12.13 11:33 1,899 조회
정상,오류.zip

예로

(know_2018, know2018_test)의 bq37_1(학과)에 있어야할 항목이 bq37(학력)에 있고

(know_2019, know2019_test)의 bq27_1(학과)에 있어야할 항목이 bq27(학력)에 있습니다

한 칸만 밀린게 아니라 여러칸이 밀린 셀도 존재하네요 이런 것들은 저희가 처리해야하나요? 아니면 주최측에서 수정해서 제공해주시나요?


+

다른 컬럼들은 확인해보지는 않았습니다

+

그리고 2017 train데이터에 직업코드가 999999인건 뭔가요? 결측치인가요?

로그인이 필요합니다
0 / 1000
DACONIO
2021.12.13 12:12

안녕하세요 작성자님,
해당 데이터는 수작업으로 입력되어 특정 셀이 밀리거나 설문과 맞지 않는 문답이 있을 수 있습니다.
때문에 1차적으로 필터링을하여 배포하였으나 여전히 몇몇 데이터에 오기가 있을 수 있습니다.
해당 부분은 참가자분들의 재량으로 처리하여 추론해 주시기 바랍니다.
감사합니다.

자반
2022.01.12 15:45

질문이 있습니다. 
만약 18 test의 1000번째 행이 'bq4'열부터 뒤로 한 열씩 밀려있다면, 그 행을 특정해서 shift 함수를 이용하여 처리하면 data leakage에 해당하나요??

DACONIO
2022.01.12 16:44

안녕하세요 자반님,

해당 사항은 data leakage로 취급하지 않습니다.

감사합니다
데이콘 드림

DACONIO
2021.12.13 13:18

 + 추가 답변입니다.
Q: 그리고 2017 train데이터에 직업코드가 999999인건 뭔가요? 결측치인가요?
A: 999999는 해당 년도 코드값이 부여되지 않은 직업입니다.  해당 라벨은 데이터 설명에 추가해놓았습니다.
감사합니다.

anonymous
작성자
2021.12.16 18:49

그럼 test knowcode에도 999999값이 존재할 수 있나요? 

DACONIO
2021.12.17 10:43

안녕하세요
test 라벨 값에 대한 정보는 알려드릴 수 없습니다.
감사합니다.

이전 글
이전 글이 존재하지 않습니다.
현재 글
대회 데이터중에 컬럼의 특정 셀이 밀려있습니다
대회 - KNOW 기반 직업 추천 알고리즘 경진대회
좋아요 1
조회 1,899
댓글 6
4년 전
다음 글
test.csv 관련 질문
대회 - KNOW 기반 직업 추천 알고리즘 경진대회
좋아요 2
조회 1,382
댓글 4
3년 전