KNOW Job Recommandation Algorithm Competition

Algorithm | Structured | Classification | Recommandation | Macro f1 score

  • moneyIcon Prize : Total 1,000만원
  • 2021.12.06 ~ 2022.01.28 18:00 + Google Calendar
  • 1,169 Users Completed

 

대회 데이터중에 컬럼의 특정 셀이 밀려있습니다

Anonymous
2021.12.13 11:33 1,838 Views
정상,오류.zip

예로

(know_2018, know2018_test)의 bq37_1(학과)에 있어야할 항목이 bq37(학력)에 있고

(know_2019, know2019_test)의 bq27_1(학과)에 있어야할 항목이 bq27(학력)에 있습니다

한 칸만 밀린게 아니라 여러칸이 밀린 셀도 존재하네요 이런 것들은 저희가 처리해야하나요? 아니면 주최측에서 수정해서 제공해주시나요?


+

다른 컬럼들은 확인해보지는 않았습니다

+

그리고 2017 train데이터에 직업코드가 999999인건 뭔가요? 결측치인가요?

Login Required
0 / 1000
DACONIO
2021.12.13 12:12

안녕하세요 작성자님,
해당 데이터는 수작업으로 입력되어 특정 셀이 밀리거나 설문과 맞지 않는 문답이 있을 수 있습니다.
때문에 1차적으로 필터링을하여 배포하였으나 여전히 몇몇 데이터에 오기가 있을 수 있습니다.
해당 부분은 참가자분들의 재량으로 처리하여 추론해 주시기 바랍니다.
감사합니다.

자반
2022.01.12 15:45

질문이 있습니다. 
만약 18 test의 1000번째 행이 'bq4'열부터 뒤로 한 열씩 밀려있다면, 그 행을 특정해서 shift 함수를 이용하여 처리하면 data leakage에 해당하나요??

DACONIO
2022.01.12 16:44

안녕하세요 자반님,

해당 사항은 data leakage로 취급하지 않습니다.

감사합니다
데이콘 드림

DACONIO
2021.12.13 13:18

 + 추가 답변입니다.
Q: 그리고 2017 train데이터에 직업코드가 999999인건 뭔가요? 결측치인가요?
A: 999999는 해당 년도 코드값이 부여되지 않은 직업입니다.  해당 라벨은 데이터 설명에 추가해놓았습니다.
감사합니다.

anonymous
Writer
2021.12.16 18:49

그럼 test knowcode에도 999999값이 존재할 수 있나요? 

DACONIO
2021.12.17 10:43

안녕하세요
test 라벨 값에 대한 정보는 알려드릴 수 없습니다.
감사합니다.

Previous
No Previous Post
Current
대회 데이터중에 컬럼의 특정 셀이 밀려있습니다
Competition - KNOW 기반 직업 추천 알고리즘 경진대회
Likes 1
Views 1,838
Comments 6
3yr ago
Next
test.csv 관련 질문
Competition - KNOW 기반 직업 추천 알고리즘 경진대회
Likes 2
Views 1,333
Comments 4
3yr ago