난독화된 한글 리뷰 복원 및 생성 AI 경진대회

알고리즘 | 월간 데이콘 | NLP | 생성형 AI | LLM | F1 Score

  • moneyIcon 상금 : 데이스쿨 프로 구독권
  • 2025.01.06 ~ 2025.02.28 09:59 + Google Calendar
  • 734명 마감

 

DAKER! 대회 관련 문의

2024.12.31 12:28 612 조회

안녕하세요. 참가자 여러분 대회 관련 자주 묻는 질문들을 모았습니다.

그 외 대회 관련 궁금하신 부분은 댓글로 남겨주세요. 즐거운 코딩 되세요.🧑‍💻🧑‍💻


[팀 구성]

Q) 팀 구성 기간이 지났는데 추가로 등록 가능한가요?

  • 팀 구성 기간 이후에는 팀을 구성할 수 없습니다.

Q) 팀원 초대는 어떻게 하나요?

  • 대회 페이지의 팀 탭에서 팀원을 초대할 수 있습니다. 닉네임, 이메일, 팀 이름을 통해 팀원을 초대하고 해당 팀원이 팀 탭에서 초대를 수락하면 팀이 구성됩니다.

Q) 최초 1회 제출의 의미가 무엇인가요?

  • 팀 구성을 하기 위해서는 대회 제출 탭에서 적어도 1회 제출을 해야 합니다.

Q) 팀 구성이 안돼요

  • 팀 구성은 팀 구성 기간 내에 팀원을 초대해 진행할 수 있습니다. 팀 구성 기간과 팀원 초대 방법을 대회 팀 탭에서 확인해 주세요.

Q) 팀 탈퇴 후 재구성하고 싶은데 방법이 있나요?

  • 아이디어 공유 방지를 위해 팀 탈퇴 후 재구성은 불가능합니다.


[제출 파일]

Q) 최종 파일은 어떤 걸 제출하면 되나요?

  • private 채점 결과가 가장 좋을 것으로 예상되는 파일을 선택하여 제출하시면 됩니다.

Q) 최종 파일 제출 방식은 어떻게 되나요?

  • 해당 대회 페이지에서 제출 메뉴를 통해 진행할 수 있습니다. 제출할 파일을 선택 후 제출 버튼을 클릭하면 제출이 진행됩니다.

Q) Baseline 코드에서 쓴 라이브러리만 사용해야 하나요?

  • 베이스라인은 참고 용 자료이며 참가자분들만의 코드를 작성해 주시면 됩니다.

Q) 제출 결과물을 삭제하고 싶어요

  • 제출 결과물을 개별 삭제하는 것은 불가능합니다.

Q) 대회 종료 후에도 결과물 제출이 가능한가요?

  • 연습이 가능한 대회는 제출이 가능합니다.

Q) 제출 파일 점수 확인은 어떻게 하나요?

  • 최고 점수는 리더보드에 표시되며 각 파일의 점수는 제출 탭에서 확인하실 수 있습니다.

Q) 최종 파일 선택 개수는 몇개 인가요?

  • 최종 파일 선택 개수는 대회 규칙에서 확인해 주시기 바랍니다.

Q) csv파일 제출 시 에러가 발생합니다.

  • 제공된 sample_submission.csv 파일과 제출 파일의 행, 열 의 크기가 동일해야 하며, 만약 해당 부분이 일치하지 않을 경우 에러가 발생할 수 있습니다.


[리더보드 점수]

Q) 리더보드에서 점수가 삭제된 이유가 뭔가요?

  • 대회 규정 위반이 의심되는 경우 치팅 처리되어 점수가 삭제됩니다. 점수 복구를 위해서는 코드를 제출하여 검증을 받아야 합니다.

Q) 리더보드 업데이트 시간이 어떻게 되나요?

  • Public Score는 실시간으로 최고 점수로 업데이트되며, Private Score는 대회 종료 후 점수 계산에 오류가 없으면 공개됩니다.

Q) 동점인 경우 어떻게 하나요?

  • 동점의 경우 해당 점수를 먼저 기록한 팀이 높은 순위에 위치하게 됩니다.

Q) 리더보드 점수에 문제가 있는 것 같습니다.

  • 리더보드 점수에 이상이 있다고 여겨지는 경우 데이콘 계정의 메일로 해당 제출물을 설명과 함께 전달해 주시면 확인하여 답변드립니다.

Q) Private점수 확인 가능한가요?

  • 최종 선택한 파일 이외의 제출물에 대해서는 따로 Private Score를 계산하지 않습니다. 다만, 대회 종료 이후 연습 기간에는 정답 파일을 제출하면 제출 탭에서 Private Score를 확인하실 수 있습니다.

Q) Private, Public 차이가 뭔가요?

  • Test Data를 특정한 비율로 나누어 Private Score와 Public Score를 계산합니다. Public Score는 대회 기간 중에 리더보드에서 확인가능합니다. Private Score는 대회 종료 후 리더보드에서 확인 가능하며 Private Score를 통해 최종 순위가 결정됩니다.


[코드 제출]

Q) 코드 제출에 포함되어야 하는 내용은 어떤 것이 있나요?

  • 상세한 제출 항목은 규칙의 코드 및 발표자료 제출 규칙을 참고 부탁드립니다.


[규정]

Q) 코드 검증 과정에서 규정 위반이란 어떤 것 인가요?

  • 허가되지 않은 외부 데이터 및 사전 학습 모델 사용 시 규정 위반 처리될 수 있습니다.

Q) GPU로 인해 결과물 재현이 되지 않아도 괜찮나요?

  • 최종 제출 점수 재현이 100% 일치하지 않더라도, 순위가 변경되지 않을 수준의 차이는 감안하여 수상자를 결정하게 됩니다.

Q) 어떤 경우가 Data leakage에 해당되나요?

  • Data leakage 대회 규칙 부분 참고 부탁드립니다.
로그인이 필요합니다
0 / 1000
ingbeeeded
2025.01.15 13:37

데이터 증강 관련하여 문의드립니다.

1. 무료 LLM을 사용하여 새로운 한글 리뷰를 생성하고 이를 학습 데이터에 포함시키는 것이 가능한가요?

2. '제공된 훈련 데이터를 증강할 수 있다'는 규칙이 있는데, 이는 
   - 기존 훈련 데이터의 변형만 허용되는 것인지
   - 아니면 유사한 새로운 리뷰 생성도 가능한 것인지 명확한 기준을 알고 싶습니다.

답변 부탁드립니다.

DACON.GM
2025.01.15 13:57

문의주신 내용에 대한 답변입니다.
1. 생성 모델을 통해 증강하는 것은 가능합니다. 다만 생성 모델 역시 사전학습모델을 활용하려는 경우, '사전학습모델 사용 규칙'을 따릅니다.
2. 코드로 재현될 수 있는 범위에서의 증강입니다. 즉 특정 증강 알고리즘, 생성 모델 등의 방법으로 데이터를 증강할 수 있습니다. (직접 수기로 작성한 변형 데이터 등은 불가능)
감사합니다. 

DACON.PSH
2025.01.15 15:41

삭제된 댓글입니다

시호
2025.02.04 16:52

이번 대회 평가에서 자릿수를 맞추는 것이 중요해보입니다.
근데, train.csv 일부(예를 들어 TRAIN_00824, TRAIN_00069 등 328개 데이터)에서 input과 output의 글자수가 맞지 않는 것이 확인됩니다.
아마도 output데이터의 문장 맨 뒤에 공백이 붙으면서 발생하는 것 같습니다. 
이 공백을 지운 것(글자수를 완전히 맞춘것)이 실제 정답이어야 하는 건지, 아니면 의도된 것인지, 혹은 뒤 공백에 대해서는 점수 영향이 없는 지 궁금합니다.

DACON.PSH
2025.02.04 17:47

안녕하세요. 시호님.
공백을 기준으로 문자를 분리하여 계산하며, 연속된 공백이나 문장 맨 뒤의 공백은 점수에 영향을 미치지 않습니다.
즉, 문자에 대해서만 점수 계산이 이루어집니다.
감사합니다.

라퓨타
2025.02.12 15:04

llm 모델 관련하여 문의드립니다. 

사전학습모델 사용 규칙에 법적 제약이 없어야 된다는 조항이 있던데 cc-by-nc-4.0 라이센스인 모델은 사용해도 될까요?

DACON.GM
2025.02.12 15:44

네, cc-by-nc-4.0 라이센스는 '상업적 이용'이 불가능한 제약이 있기 때문에 사용에 법적 제약이 존재합니다.
따라서 해당 라이센스 모델은 사용이 불가능합니다.

goorm
2025.02.14 01:42

사전학습모델 규칙 관련하여 문의드립니다.
License: mit 와 pache-2.0 모델 사용 가능한지 궁금합니다.
감사합니다.

DACON.GM
2025.02.14 09:00

사용 가능합니다.

goorm
2025.02.21 14:17

삭제된 댓글입니다

DACON.GM
2025.02.21 14:09

앙상블 추론 방식은 충분히 가능한 방법입니다.

시호
2025.02.23 16:50

패키지 사용 관련해서 문의드립니다.
py-hanspell 패키지는 네이버 맞춤법 검사기를 활용한 MIT 라이선스의 패키지입니다. (https://github.com/ssut/py-hanspell)
혹시 해당 패키지 사용은 가능할까요?

DACON.GM
2025.02.24 09:08

사용 가능합니다.

시호
2025.02.26 09:59

삭제된 댓글입니다

시호
2025.02.26 09:59

데이터나 모델 사용 가능 여부 질문해도 될까요? 
1. llama2나 3와 같은 meta에서 승인이 필요한 모델 및 라마의 변형모델(MLP-KTLim/llama-3-Korean-Bllossom-8B)
2. 표준국어대사전과 같은 외부 단어 사전

DACON.GM
2025.02.26 10:21

1. MLP-KTLim/llama-3-Korean-Bllossom-8B는 사용 가능합니다.
2. 표준국어대사전은 외부데이터에 해당하므로 사용이 불가능합니다. 단, 사전학습모델의 Vocab(어휘 집합)은 사용 가능합니다. 이 경우에도 마찬가지로 사전 학습 모델 사용 규칙을 따라야합니다.