Context-Based Sentence Order Prediction AI Competition

Algorithm | Montly Dacon | NLP | Generate AI | LLM | Accuracy

  • moneyIcon Prize : DASCHOOL Pro Subscription
  • 406 Users Completed

 

DAKER! 대회 관련 문의

2025.04.30 16:02 342 Views

안녕하세요. 참가자 여러분 대회 관련 자주 묻는 질문들을 모았습니다.

그 외 대회 관련 궁금하신 부분은 댓글로 남겨주세요. 즐거운 코딩 되세요.🧑‍💻🧑‍💻


[팀 구성]

Q) 팀 구성 기간이 지났는데 추가로 등록 가능한가요?

  • 팀 구성 기간 이후에는 팀을 구성할 수 없습니다.

Q) 팀원 초대는 어떻게 하나요?

  • 대회 페이지의 팀 탭에서 팀원을 초대할 수 있습니다. 닉네임, 이메일, 팀 이름을 통해 팀원을 초대하고 해당 팀원이 팀 탭에서 초대를 수락하면 팀이 구성됩니다.

Q) 최초 1회 제출의 의미가 무엇인가요?

  • 팀 구성을 하기 위해서는 대회 제출 탭에서 적어도 1회 제출을 해야 합니다.

Q) 팀 구성이 안돼요

  • 팀 구성은 팀 구성 기간 내에 팀원을 초대해 진행할 수 있습니다. 팀 구성 기간과 팀원 초대 방법을 대회 팀 탭에서 확인해 주세요.

Q) 팀 탈퇴 후 재구성하고 싶은데 방법이 있나요?

  • 아이디어 공유 방지를 위해 팀 탈퇴 후 재구성은 불가능합니다.


[제출 파일]

Q) 최종 파일은 어떤 걸 제출하면 되나요?

  • 본 대회는 대회 기간 종료 시점의 Public 리더보드가 Private 리더보드이므로, 별도의 최종 파일을 선택할 필요가 없습니다.

Q) Baseline 코드에서 쓴 라이브러리만 사용해야 하나요?

  • 베이스라인은 참고 용 자료이며 참가자분들만의 코드를 작성해 주시면 됩니다.

Q) 제출 결과물을 삭제하고 싶어요

  • 제출 결과물을 개별 삭제하는 것은 불가능합니다.

Q) 대회 종료 후에도 결과물 제출이 가능한가요?

  • 연습이 가능한 대회는 제출이 가능합니다.

Q) 제출 파일 점수 확인은 어떻게 하나요?

  • 최고 점수는 리더보드에 표시되며 각 파일의 점수는 제출 탭에서 확인하실 수 있습니다.

Q) csv파일 제출 시 에러가 발생합니다.

  • 제공된 sample_submission.csv 파일과 제출 파일의 행, 열 의 크기가 동일해야 하며, 만약 해당 부분이 일치하지 않을 경우 에러가 발생할 수 있습니다.


[리더보드 점수]

Q) 리더보드에서 점수가 삭제된 이유가 뭔가요?

  • 대회 규정 위반이 의심되는 경우 치팅 처리되어 점수가 삭제됩니다. 점수 복구를 위해서는 코드를 제출하여 검증을 받아야 합니다.

Q) 리더보드 업데이트 시간이 어떻게 되나요?

  • Public Score는 실시간으로 최고 점수로 업데이트됩니다.

Q) 동점인 경우 어떻게 하나요?

  • 동점의 경우 해당 점수를 먼저 기록한 팀이 높은 순위에 위치하게 됩니다.

Q) 리더보드 점수에 문제가 있는 것 같습니다.

  • 리더보드 점수에 이상이 있다고 여겨지는 경우 데이콘 계정의 메일로 해당 제출물을 설명과 함께 전달해 주시면 확인하여 답변드립니다.


[코드 제출]

Q) 코드 제출에 포함되어야 하는 내용은 어떤 것이 있나요?

  • 상세한 제출 항목은 규칙의 코드 및 솔루션 PPT자료 제출 규칙을 참고 부탁드립니다.


[규정]

Q) 코드 검증 과정에서 규정 위반이란 어떤 것 인가요?

  • 허가되지 않은 외부 데이터 및 사전 학습 모델 사용 시 규정 위반 처리될 수 있습니다.

Q) GPU로 인해 결과물 재현이 되지 않아도 괜찮나요?

  • 최종 제출 점수 재현이 100% 일치하지 않더라도, 순위가 변경되지 않을 수준의 차이는 감안하여 수상자를 결정하게 됩니다


Login Required
0 / 1000
Lt.Kang
2025.05.14 17:00

안녕하세요. 자연어처리 대회는 처음이라 질문이 있습니다.

1.
tokenizer를 직접 만든다고 가정했을 때
test dataset의 문장을 사용한다면
이는 data-leakage에 해당할까요?

2.
hugging face에서 tokenizer를 load하여 사용하는 것에 대해
제약이 있을까요?

3.
가중치 파일이 공개되어 있는 사전 학습 모델 사용 가능하다고 명시되어있는데
혹시.. 이를테면
LLaMA를 기반으로 한국어 데이터셋을 fine-tuning한 model을 
hugging face에서 서빙하여 사용한다고 가정했을 때
엄밀히 따지면 기존 pre-trained model에 한국어 데이터셋을 추가로 학습한 것이니
이러한 모델들은 사용하지 못하는거
맞을까요?

DACON.PSH
2025.05.15 09:17

안녕하세요. Lt.Kang님. 
문의주신 질문에 대한 답변입니다. 
1. test 데이터로 tokenizer를 구축하면 모델이 test 데이터를 학습하게 되므로, 해당 경우는 data leakage에 해당합니다. 
2. hugging face에서 공개된 tokenizer는 사용 가능합니다. 다만, 사용에 법적 제약이 없는 경우에만 가능합니다. 
3. 가중치 파일이 공개되고 사용에 법적 제약이 없는 경우 사전학습 모델 사용 가능합니다. (규칙 4. 외부 데이터 및 API / 사전 학습 모델)
감사합니다. 

인지킹
2025.05.29 18:38

안녕하세요. 이 대회에 공개 모델을 사용하는 것이 '상업적 이용'에 해당되나요? 아니면 '연구/비상업적 목적'에 해당되나요?
대회 안내에서 MIT, Apache 2.0 라이센스 모델을 제시하고 있는데, 공개된 모델들 중 일부는 cc-by-nc로 상업적 이용이 불가합니다. 또한, gemma3, hyper-clova, exaone3.5등은 별개의 라이센스를 적용 중입니다. 이들 대부분은 상업적 이용은 제한이나, 연구/비상업적 목적의 활용은 가능합니다.
본 대회에서 허용되는 모델 라이센스 범위가 어디까지인지 명확히 알려주시면 감사하겠습니다.

DACON.PSH
2025.05.30 09:15

안녕하세요. 인지킹님. 
본 대회에서 사용에 법적 제약이 없는 모델은 "오픈소스 라이선스로 공개되어 있으며, 최소 비상업적 이용을 포함한 자유로운 사용이 허용되는 경우"를 의미합니다. 
따라서, 오픈 라이선스로 공개되어 있으며, 비상업적 목적에 한해 사용이 허용된 모델은 본 대회에서는 사용 가능합니다.
감사합니다.

goorm
2025.06.20 07:59

테스트 데이터셋 관련하여 질문 드립니다.

훈련 데이터 4개의 문장을 제가 원하는 방식으로 조합하여 재구성한 후 학습을 진행한 후
테스트 데이터셋에 대해 같은 방식으로 재구성 한 후 라벨을 예측하는 방식이 규칙에 위반될까요?

DACON.GM
2025.06.20 11:55

재구성한다는 것에 대한 구체적인 정보가 없어 판단이 어렵습니다.
다만, 학습 데이터에 적용한 전처리를 동일하게 테스트 데이터에 적용하여 추론하는 것은 가능한 방법입니다.
물론 이 전처리 과정에서의 Data Leakage는 반드시 유의하셔야합니다.

goorm
2025.06.20 12:11

답변 감사합니다 :)