KNOW 기반 직업 추천 알고리즘 경진대회

알고리즘 | 정형 | 분류 | 추천 | Macro f1 score

  • moneyIcon 상금 : 총 1,000만원
  • 1,164명 마감

 

DAKER! 대회 관련 문의

2022.01.06 09:07 2,516 조회

안녕하세요. 참가자 여러분 대회 관련 자주 묻는 질문들을 모았습니다.

그 외 대회 관련 궁금하신 부분은 댓글로 남겨주세요. 즐거운 코딩 되세요.🧑‍💻🧑‍💻


[팀 구성]

Q) 팀 구성 기간이 지났는데 추가로 등록 가능한가요?

  • 팀 구성 기간 이후에는 팀을 구성할 수 없습니다.

Q) 팀 원 초대는 어떻게 하나요?

  • 대회 페이지의 팀 탭에서 팀원을 초대할 수 있습니다. 닉네임, 이메일, 팀 이름을 통해 팀원을 초대하고 해당 팀원이 팀 탭에서 초대를 수락하면 팀이 구성됩니다.

Q) 최초 1회 제출의 의미가 무엇인가요?

  • 팀 구성을 하기 위해서는 대회 제출 탭에서 적어도 1회 제출을 해야 합니다.

Q) 팀 구성이 안돼요

  • 팀 구성은 팀 구성 기간 내에 팀원을 초대해 진행할 수 있습니다. 팀 구성 기간과 팀원 초대 방법을 대회 팀 탭에서 확인해 주세요.

Q) 팀 탈퇴 후 재구성하고 싶은데 방법이 있나요?

  • 아이디어 공유 방지를 위해 팀 탈퇴 후 재구성은 불가능합니다.



[제출 파일]

Q) 최종 파일은 어떤 걸 제출하면 되나요?

  • private 채점 결과가 가장 좋을 것으로 예상되는 파일을 선택하여 제출하시면 됩니다.

Q) 최종 파일 제출 방식은 어떻게 되나요?

  • 해당 대회 페이지에서 제출 메뉴를 통해 진행할 수 있습니다. 제출할 파일을 선택 후 제출 버튼을 클릭하면 제출이 진행됩니다.

Q) Baseline 코드에서 쓴 라이브러리만 사용해야 하나요?

  • 베이스라인은 참고 용 자료이며 참가자분들만의 코드를 작성해 주시면 됩니다.

Q) 제출 결과물을 삭제하고 싶어요.

  • 제출 결과물을 개별 삭제하는 것은 불가능합니다.

Q) 대회 종료 후에도 결과물 제출이 가능한가요?

  • 연습이 가능한 대회는 제출이 가능합니다.

Q) 제출 파일 점수 확인은 어떻게 하나요?

  • 최고 점수는 리더보드에 표시되며 각 파일의 점수는 제출 탭에서 확인하실 수 있습니다.

Q) 최종 파일 선택 개수는 몇 개 인가요?

  • 최종 파일 선택 개수는 대회 규칙에서 확인해 주시기 바랍니다.

Q) csv파일 제출 시 에러가 발생합니다.

  • 제공된 sample_submission.csv 파일과 제출 파일의 행, 열 의 크기가 동일해야 하며, 만약 해당 부분이 일치하지 않을 경우 에러가 발생할 수 있습니다.



[리더보드 점수]

Q) 리더보드에서 점수가 삭제된 이유가 뭔가요?

  • 대회 규정 위반이 의심되는 경우 치팅 처리되어 점수가 삭제됩니다. 점수 복구를 위해서는 코드를 제출하여 검증을 받아야 합니다.

Q) 리더보드 업데이트 시간이 어떻게 되나요?

  • Public Score는 실시간으로 최고 점수로 업데이트되며, Private Score는 대회 종료 후 점수 계산에 오류가 없으면 공개됩니다.

Q) 동점인 경우 어떻게 하나요?

  • 동점의 경우 해당 점수를 먼저 기록한 팀이 높은 순위에 위치하게 됩니다.

Q) 리더보드 점수에 문제가 있는 것 같습니다.

  • 리더보드 점수에 이상이 있다고 여겨지는 경우 데이콘 계정의 메일로 해당 제출물을 설명과 함께 전달해 주시면 확인하여 답변드립니다.

Q) Private점수 확인 가능한가요?

  • 최종 선택한 파일 이외의 제출물에 대해서는 따로 Private Score를 계산하지 않습니다. 다만, 대회 종료 이후 연습 기간에는 정답 파일을 제출하면 제출 탭에서 Private Score를 확인하실 수 있습니다.

Q) Private, Public 차이가 뭔가요?

  • Test Data를 특정한 비율로 나누어 Private Score와 Public Score를 계산합니다. Public Score는 대회 기간 중에 리더보드에서 확인가능합니다. Private Score는 대회 종료 후 리더보드에서 확인 가능하며 Private Score를 통해 최종 순위가 결정됩니다.



[2차 평가]

Q) 발표 자료에 어떤 내용이 포함되어야 하나요?

  • 발표 자료 내용은 평가 지표를 바탕으로 중요하다고 여겨지는 내용을 위주로 담아주시면 됩니다.

Q) 발표 일정은 어떻게 되나요?

  • 발표 일정은 대회 일정 페이지에서 확인하실 수 있으며, 변경사항이 있을 경우 따로 공지와 안내를 해드립니다.



[코드공유]

Q) 코드공유 시 외부 데이터 제출 어디에 해야 하나요?

  • 코드 공유 시 외부 데이터는 구글 드라이브에 업로드 하여 다운로드 링크를 코드 공유 게시글에 포함시켜 주시면 됩니다.

Q) 코드공유에 포함되어야 하는 내용은 어떤 것이 있나요?

  • 코드 공유 시 제출하신 코드를 작동시켜 최종 제출 파일과 동일한 파일이 생성될 수 있는 코드를 제출해 주시면 됩니다.



[규정]

Q) 코드 검증 과정에서 규정 위반이란 어떤 것 인가요?

  • test 데이터를 모델 학습 시 활용하거나, 허가되지 않은 외부 데이터 및 사전 학습 모델 사용 시 규정 위반 처리될 수 있습니다.

Q) GPU로 인해 결과물 재현이 되지 않아도 괜찮나요?

  • 최종 제출 점수 재현이 100% 일치하지 않더라도, 순위가 변경되지 않을 수준의 차이는 감안하여 수상자를 결정하게 됩니다.

Q) 어떤 경우가 Data leakage에 해당되나요?

  • label encoding, one-hot encoding 시 test 데이터 셋 활용
  • data scaling 적용 시 test 데이터 셋 활용
  • test 데이터 셋의 결측치 처리 시 test 데이터 셋의 통계 값 활용
  • 위 예시 외에도 test 데이터 셋이 모델 학습에 활용되는 경우에 Data leakage에 해당됨.


로그인이 필요합니다
0 / 1000
tensorflow
2022.01.10 23:48

[Data leakage 관련 규정에 대한 질문]
세번째 예시인 "test 데이터 셋의 결측치 처리 시 test 데이터 셋의 통계 값 활용 " 의 문장에서, 혹시 첫번째 test가 train 인데 잘못 기재된것이 아닌지 문의드립니다. 

"train 데이터 셋의 결측치 처리 시 test 데이터 셋의 통계 값 활용 " 라는 의미인지 궁금합니다.

감사합니다.

DACONIO
2022.01.11 09:50

안녕하세요 tensorflow님,

"test 데이터 셋의 결측치 처리 시 test 데이터 셋의 통계 값 활용 "은 test set에 있는 결측치를 test set의 평균, 중앙값 혹은 test set의 다른 feature들을 이용하여 학습하여 채웟을 경우를 의미합니다.

해당 사항을 더욱 명확히 설명할 수 있는 문구를 작성하여 업데이트 하도록 하겠습니다.

감사합니다
데이콘 드림

아프리카 왕달팽이
2022.01.11 15:33

그러면 혹시 test 데이터 셋의 결측치 처리 시 train 데이터 셋의 통계값을 활용하는 것에는 제약이 없는건가요?

DACONIO
2022.01.11 17:35

안녕하세요 왕달팽이님,

해당 test set의 결측치 처리시 train set의 통계량을 이용하는 것은 규정 위반이 아닙니다.

감사합니다
데이콘 드림

YONGMANHONG
2022.01.11 18:43

삭제된 댓글입니다

PancakeCookie
2022.01.12 11:51

삭제된 댓글입니다

DACONIO
2022.01.12 11:55

안녕하세요 ows님,

모델은 inference시 test set의 하나의 row만을 본다 가정합니다.
따라서 train set의 평균은 알 수 있어도 다른 test set들과의 관계 및 통계치를 알 수는 없습니다.

하지만 test set 1개의 row를 보고 새로운 컬럼을 생성하는것은 가능합니다.
특정 갯수의 컬럼을 더하거나 곱하거나 나누는 등 1개의 row를 이용하여 feature engineering을 진행하는 것은 가능합니다.

감사합니다.
데이콘 드림

PancakeCookie
2022.01.12 15:24

댓글을 달고보니 test는 한개씩 들어온다고 보는게 맞으니까 
test의 통계값은 쓰면 안되는게 이해가 돼서 삭제했는데 답변을 엄청 빠르게 달아주셨네요
다른 분들도 원래 질문 보실수 있게 삭제했던 질문 다시 올리겠습니다
관리자님 항상 수고 많으십니다~!!
---------------------------------------------------------------------------------------------------------------------------------------------
원질문)
"test 데이터 셋의 결측치 처리 시 test 데이터 셋의 통계 값 활용 "은 test set에 있는 결측치를 test set의 평균, 중앙값 혹은 test set의 다른 feature들을 이용하여 학습하여 채웟을 경우를 의미합니다. 
위의 답변이 이해가 안되어 질문드립니다. 윗분 말씀대로 train데이터 결측치 처리에 test 데이터를 쓰는 것은 문제가 되지만 
test데이터의 결측치를 처리하는데 test의 통계를 쓰는게 왜 안되는거죠? 
그럼 test의 컬럼들로 새로운 컬럼을 만드는 것도 안되는건가요? 

가 삭제된 질문 이였습니다

affjljoo3581
2022.01.16 18:16

안녕하세요. 본 대회 규칙에서 코드 공유 게시판에 코드를 게시하고, 코드를 공식 메일로 제출할 것을 명시하고 있습니다. 본 게시글에서 다음과 같이
>>> 코드 공유 시 제출하신 코드를 작동시켜 최종 제출 파일과 동일한 파일이 생성될 수 있는 코드를 제출해 주시면 됩니다.
코드 공유 내용에 대한 범위를 언급하고 있는데, 공유 게시판에 게시할 코드와 메일로 별도 제출할 코드가 동일해야 하나요? 혹은 게시판에 공유하는 코드의 경우 모델 학습 과정이 제외되어도 괜찮은가요? 이 경우 데이터 입/출력 경로에 학습된 모델 파일을 포함하여 점수가 복원되도록 하여도 괜찮은지 궁금합니다.

DACONIO
2022.01.17 09:10

안녕하세요 affjljoo3581님,

코드 및 영상 제출 방식은 이번주 내로(~1/21) 공지될 예정입니다.
추후 올라오는 공지를 확인해주시기 바랍니다.

감사합니다.
데이콘 드림 

Prcnsi
2022.04.01 12:43

삭제된 댓글입니다

DACONIO
2022.01.24 09:29

안녕하세요 Prcnsi님,

1. 2017년부터 2020년까지의 결과를 통합하여 제출하시면 됩니다.
2. 맞습니다. 2017년부터 2020까지의 35231개의 데이터를 통합하여 제출하시면 됩니다. 단, idx값의 순서는 바뀌면 안됩니다.
3. 가능합니다. 다만 test set의 통계치를 이용하여 예측하면 data leakage에 해당합니다. 이점 유의하여 분석해주시면 됩니다. 

감사합니다.
데이콘 드림 

또도박사
2022.02.04 23:08

구직자를 위한 기업 트렌드 시각화 경진대회에 참여하고 있는 유저입니다.
다름아니라 know데이터를 시각화 경진대회 데이터로 사용해도 되는지 궁금합니다.

아프리카 왕달팽이
2022.02.16 15:08

안녕하세요, 포항항팀 참가자 입니다! 혹시 본인팀의 2차 평가에 대한 점수 확인 가능할까요? 추후 저희 팀의 발전방향에 대한 계획에 활용하려 합니다!

DACONIO
2022.02.16 15:15

안녕하세요 :)

안타깝지만, 본 대회에서는 2차 평가에 대한 구체적인 점수를 말씀드릴 수 없습니다.
다만 어느 항목에서 심사위원 분들이 비교적으로 개선이 필요하다고 여기셨는지에 대해서는 메일로 답변 드리겠습니다.

감사합니다.

아프리카 왕달팽이
2022.02.16 15:41

감사합니다!!

DACONIO
2022.03.11 09:14

데이터 관련 문의에 대한 답변드립니다.

현재 KNOW기반 직업 추천 알고리즘 경진대회의 데이터는 데이콘 홈페이지에서 다운로드 받으실 수 없습니다.
다만, 아래의 링크를 통해 데이터를 수집하실 수 있으니, 참고하여 주시기 바랍니다.
https://www.work.go.kr/consltJobCarpa/jobData/getRetrieveReseReportList.do?pageIndex=1&pageUnit=10&pageSize=10

감사합니다.

Prcnsi
2022.04.01 12:51

저 궁금한게 있는데 이 문제가 메타데이터의 변수값에서 변수명 'knowcode'와 변수명 'knowcode2017' 중에 어떤 것이 예측하려는 knowcode의 전체 리스트인가요? 

그리고 혹시 지금은 메일 평가가 안 되겠지요?

DACONIO
2022.04.01 13:49

안녕하세요 Prcnsi 님,

본 대회의 문제는 'knowcode'를 예측하는 것입니다.
다만, 대회용으로 제작하는 과정 중에 원데이터와 상이한 부분이 있을 수도 있습니다.
이점 참고하시어 분석해 주시면 감사하겠습니다.

아쉽지만 끝난 대회에서는 메일 평가를 해드리지 않고 있습니다.

감사합니다.