신용카드 사기 거래 탐지 AI 경진대회 월간 데이콘

알고리즘 | 정형 | 분류 | 탐지 | Macro f1 score

 

DAKER! 대회 관련 문의

2022.06.16 15:19 1,453 조회

안녕하세요. 참가자 여러분 대회 관련 자주 묻는 질문들을 모았습니다.

그 외 대회 관련 궁금하신 부분은 댓글로 남겨주세요. 즐거운 코딩 되세요.🧑‍💻🧑‍💻


[팀 구성]

Q) 팀 구성 기간이 지났는데 추가로 등록 가능한가요?

  • 팀 구성 기간 이후에는 팀을 구성할 수 없습니다.

Q) 팀 원 초대는 어떻게 하나요?

  • 대회 페이지의 팀 탭에서 팀원을 초대할 수 있습니다. 닉네임, 이메일, 팀 이름을 통해 팀원을 초대하고 해당 팀원이 팀 탭에서 초대를 수락하면 팀이 구성됩니다.

Q) 최초 1회 제출의 의미가 무엇인가요?

  • 팀 구성을 하기 위해서는 대회 제출 탭에서 적어도 1회 제출을 해야 합니다.

Q) 팀 구성이 안돼요

  • 팀 구성은 팀 구성 기간 내에 팀원을 초대해 진행할 수 있습니다. 팀 구성 기간과 팀원 초대 방법을 대회 팀 탭에서 확인해 주세요.

Q) 팀 탈퇴 후 재구성하고 싶은데 방법이 있나요?

  • 아이디어 공유 방지를 위해 팀 탈퇴 후 재구성은 불가능합니다.



[제출 파일]

Q) 최종 파일은 어떤 걸 제출하면 되나요?

  • private 채점 결과가 가장 좋을 것으로 예상되는 파일을 선택하여 제출하시면 됩니다.

Q) 최종 파일 제출 방식은 어떻게 되나요?

  • 해당 대회 페이지에서 제출 메뉴를 통해 진행할 수 있습니다. 제출할 파일을 선택 후 제출 버튼을 클릭하면 제출이 진행됩니다.

Q) Baseline 코드에서 쓴 라이브러리만 사용해야 하나요?

  • 베이스라인은 참고 용 자료이며 참가자분들만의 코드를 작성해 주시면 됩니다.

Q) 제출 결과물을 삭제하고 싶어요

  • 제출 결과물을 개별 삭제하는 것은 불가능합니다.

Q) 대회 종료 후에도 결과물 제출이 가능한가요?

  • 연습이 가능한 대회는 제출이 가능합니다.

Q) 제출 파일 점수 확인은 어떻게 하나요?

  • 최고 점수는 리더보드에 표시되며 각 파일의 점수는 제출 탭에서 확인하실 수 있습니다.

Q) 최종 파일 선택 개수는 몇개 인가요?

  • 최종 파일 선택 개수는 대회 규칙에서 확인해 주시기 바랍니다.

Q) csv파일 제출 시 에러가 발생합니다.

  • 제공된 sample_submission.csv 파일과 제출 파일의 행, 열 의 크기가 동일해야 하며, 만약 해당 부분이 일치하지 않을 경우 에러가 발생할 수 있습니다.



[리더보드 점수]

Q) 리더보드에서 점수가 삭제된 이유가 뭔가요?

  • 대회 규정 위반이 의심되는 경우 치팅 처리되어 점수가 삭제됩니다. 점수 복구를 위해서는 코드를 제출하여 검증을 받아야 합니다.

Q) 리더보드 업데이트 시간이 어떻게 되나요?

  • Public Score는 실시간으로 최고 점수로 업데이트되며, Private Score는 대회 종료 후 점수 계산에 오류가 없으면 공개됩니다.

Q) 동점인 경우 어떻게 하나요?

  • 동점의 경우 해당 점수를 먼저 기록한 팀이 높은 순위에 위치하게 됩니다.

Q) 리더보드 점수에 문제가 있는 것 같습니다.

  • 리더보드 점수에 이상이 있다고 여겨지는 경우 데이콘 계정의 메일로 해당 제출물을 설명과 함께 전달해 주시면 확인하여 답변드립니다.

Q) Private점수 확인 가능한가요?

  • 최종 선택한 파일 이외의 제출물에 대해서는 따로 Private Score를 계산하지 않습니다. 다만, 대회 종료 이후 연습 기간에는 정답 파일을 제출하면 제출 탭에서 Private Score를 확인하실 수 있습니다.

Q) Private, Public 차이가 뭔가요?

  • Test Data를 특정한 비율로 나누어 Private Score와 Public Score를 계산합니다. Public Score는 대회 기간 중에 리더보드에서 확인가능합니다. Private Score는 대회 종료 후 리더보드에서 확인 가능하며 Private Score를 통해 최종 순위가 결정됩니다.



[2차 평가]

Q) 발표 자료에 어떤 내용이 포함되어야하나요?

  • 발표 자료 내용은 평가 지표를 바탕으로 중요하다고 여겨지는 내용을 위주로 담아주시면 됩니다.

Q) 발표 일정은 어떻게 되나요?

  • 발표 일정은 대회 일정 페이지에서 확인하실 수 있으며, 변경사항이 있을 경우 따로 공지와 안내를 해드립니다.



[코드공유]

Q) 코드공유 시 외부 데이터 제출 어디에 해야 하나요?

  • 코드 공유 시 외부 데이터는 구글 드라이브에 업로드 하여 다운로드 링크를 코드 공유 게시글에 포함시켜 주시면 됩니다.

Q) 코드공유에 포함되어야 하는 내용은 어떤 것이 있나요?

  • 코드 공유 시 제출하신 코드를 작동시켜 최종 제출 파일과 동일한 파일이 생성될 수 있는 코드를 제출해 주시면 됩니다.



[규정]

Q) 코드 검증 과정에서 규정 위반이란 어떤 것 인가요?

  • test 데이터를 모델 학습 시 활용하거나, 허가되지 않은 외부 데이터 및 사전 학습 모델 사용 시 규정 위반 처리될 수 있습니다.

Q) GPU로 인해 결과물 재현이 되지 않아도 괜찮나요?

  • 최종 제출 점수 재현이 100% 일치하지 않더라도, 순위가 변경되지 않을 수준의 차이는 감안하여 수상자를 결정하게 됩니다.

Q) 어떤 경우가 Data leakage에 해당되나요?

  • label encoding, one-hot encoding 시 test 데이터 셋 활용
  • data scaling 적용 시 test 데이터 셋 활용
  • test 데이터 셋의 결측치 처리 시 test 데이터 셋의 통계 값 활용
  • 위 예시 외에도 test 데이터 셋이 모델 학습에 활용되는 경우에 Data leakage에 해당됨.


로그인이 필요합니다
0 / 1000
노라
2022.07.04 19:39

1일 제출 횟수 제한이 3회인데 팀 단위 적용인가요? 인당 제한인가요?

DACONIO
2022.07.04 21:04

안녕하세요 노라님,

1일 제출 횟수 제한은 팀 단위 적용입니다.

감사합니다.

롤케잌
2022.07.08 02:25

valid 데이터 중 정상 데이터만 사용하여 평균과 표준편차를 계산하고 이를  활용해 train, test 데이터를 표준화하면 data leakage 인가요? 

DACONIO
2022.07.08 09:12

안녕하세요 롤케잌님,
Validation 데이터의 통계 정보를 활용하여 train / test 데이터를 표준화하는 것은 가능합니다.
그러나 Test 데이터의 통계 정보를 활용한다면 Data Leakage입니다.
감사합니다.

kant1724
2022.07.09 14:37

valid데이터의 label을 참고하는 unsupervised 기술을 활용해서 fit 한 정보를 train에 이용한것도  leakage인가요?

DACONIO
2022.07.10 17:38

안녕하세요 kant1724님,
Validation 데이터는 모델 학습에 사용이 불가능하지만, 데이터 통계 정보와 모델 평가에는 사용 가능합니다.
'valid데이터의 label을 참고하는 unsupervised 기술을 활용해서 fit 한 정보를 train에 이용'의 정확하고 구체적인 내용은 알 수 없지만 
만약 A라는 모델을 Validation 데이터로 직접 학습을 시키고, B라는 모델을 Train 데이터로 직접 학습을 시키면서 A모델에 Train 데이터를 Input으로 넣어 B모델의 학습 과정에서 A모델의 결과 정보를 사용한다는 말씀이시라면, 이는 Data Leakage는 아니지만 규칙 위반입니다. (대회 안내 -> 규칙)
Validation 데이터는 모델 학습에는 사용이 불가능합니다.
감사합니다.

datu
2022.07.20 13:10

안녕하세요. 지금 시간 기준으로 3등부터 28등까지 public score가 동일하게 표시되고 있는데 혹시 소수점 뒷자리를 늘려주시거나 score를 구분할 수 있는 어떤 방안에 대해서 생각해주실 수 있으신지 여쭤보고 싶습니다!

DACONIO
2022.07.20 15:56

안녕하세요 datu님,
공개 리더보드 상에서는 Public score가 동일하게 표시는 되어있으나, 내부적으로는 소수점 10자리까지 계산하여 등수를 나타내고 있습니다.
그러나 소수점 10자리까지 똑같은 동점의 경우에는 명시된 바와 같이 해당 점수를 먼저 기록한 팀이 높은 순위에 위치하게 되어있습니다.
또한 공개 리더보드 점수를 소수점 5자리로 제한한 것은, 주어진 Validation 데이터셋보다 Public 데이터셋의 의존도가 높아지는 것을 막기 위해
대회 설계 과정에서 의도된 상황입니다.
감사합니다.

datu
2022.07.22 15:26

하나 더 여쭙고 싶은게 있습니다. 최고 스코어는 그대로 유지가 되고 있는데 제출을 하면 할수록 순위가 밀리는 현상이 있어서요. 제가 이해한 바로는 해당 점수를 먼저 기록한 팀이 높은 순위에 위치하게 된다라고 이해했는데 이런 경우는 어떤 경우라고 판단할 수 있을까요?

DACONIO
2022.07.22 19:19

안녕하세요 datu님,
Public 리더보드에서 해당 문제를 발견하여, '해당 점수를 먼저 기록한 팀이 높은 순위에 위치'하도록 수정하였습니다.
감사합니다.

아르미
2022.07.24 11:47

상세 안내 감사합니다

도플라밍고
2022.07.25 03:14

삭제된 댓글입니다

도플라밍고
2022.07.25 11:42

안녕하세요. 아래 방법을 사용해보려하는데 이는 규칙 위반일까요? 

1) validset으로 A모델 생성 
2) 생성 및 학습 완료 후, A모델의 입력으로  trainset을 넣어 Output O을 얻음 
3)  concat(trainset,O) = new_trainset  정의 
(이후 validset 일체 사용 X) 
4) new_trainset을 이용하여 새로운 B모델 학습 
5) B를 통해 testset의 label prediction 

DACONIO
2022.07.25 14:58

안녕하세요 도플라밍고님,
문의 주신 내용에서 1번의 내용은 다음 규칙 '대회 제공 데이터 중 Validation Dataset (validation.csv)은 모델 학습에 사용은 불가능하지만 데이터 통계 정보와 모델 평가에는 사용 가능'에서 'Validation Dataset을 모델 학습에 사용'에 해당되므로, 규칙 위반입니다.
감사합니다.

도플라밍고
2022.07.25 15:25

넵 감사합니다!

2jyeon
2022.07.26 22:55

안녕하세요,  
리더보드의 public score를 참고하여 하이퍼파라미터를 조정하면 Data Leakage에 해당할까요?
감사합니다.

DACONIO
2022.07.26 23:16

안녕하세요 kite님,
해당 방법은 대회 특성 상 규칙 위반 사항은 아니지만, 권장 드리지 않는 방법입니다. (Public 리더보드에 오버피팅 등)
가급적 Validation Dataset을 활용해주시길 바랍니다.
감사합니다.

2jyeon
2022.07.27 10:20

감사합니다!

자강사123
2022.08.05 11:19

안녕하세요. 코드 제출에 관해서 질문이 있습니다.

1. 규칙 1번에서 제출해야 하는 것이 단순히 submission csv인지 코드 제출까지 포함하는지 알고 싶습니다.
2. 코드 제출을 정확히 언제 제출해야 하는지 알고 싶습니다.
3. submission csv를 정확히 언제 제출해야 하는지 알고 싶습니다.

DACON.GM
2022.08.05 11:23

안녕하세요 자강사123님,

1. 규칙 1번의 내용은, Private 채점을 받을 최종 제출물(2개)을 선택하는 내용입니다. 대회 종료전까지 제출 탭 -> 최종 제출물 선택
2. 코드 제출은 대회 종료 후 Private 리더보드가 발표된 시점으로부터 ~2022년 8월 10일 수요일 23:59까지 코드 공유 탭에 올려주시면 됩니다.
3. 코드 제출 시 submission.csv 파일을 제출하실 필요는 없습니다.

감사합니다.