난독화된 한글 리뷰 복원 및 생성 AI 경진대회

알고리즘 | 월간 데이콘 | NLP | 생성형 AI | LLM | F1 Score

데이스쿨 프로 구독권
791명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

DAKER! 대회 관련 문의

DACONIO

2024.12.31 12:28 826 조회

안녕하세요. 참가자 여러분 대회 관련 자주 묻는 질문들을 모았습니다.

그 외 대회 관련 궁금하신 부분은 댓글로 남겨주세요. 즐거운 코딩 되세요.🧑‍💻🧑‍💻

[팀 구성]

Q) 팀 구성 기간이 지났는데 추가로 등록 가능한가요?

팀 구성 기간 이후에는 팀을 구성할 수 없습니다.

Q) 팀원 초대는 어떻게 하나요?

대회 페이지의 팀 탭에서 팀원을 초대할 수 있습니다. 닉네임, 이메일, 팀 이름을 통해 팀원을 초대하고 해당 팀원이 팀 탭에서 초대를 수락하면 팀이 구성됩니다.

Q) 최초 1회 제출의 의미가 무엇인가요?

팀 구성을 하기 위해서는 대회 제출 탭에서 적어도 1회 제출을 해야 합니다.

Q) 팀 구성이 안돼요

팀 구성은 팀 구성 기간 내에 팀원을 초대해 진행할 수 있습니다. 팀 구성 기간과 팀원 초대 방법을 대회 팀 탭에서 확인해 주세요.

Q) 팀 탈퇴 후 재구성하고 싶은데 방법이 있나요?

아이디어 공유 방지를 위해 팀 탈퇴 후 재구성은 불가능합니다.

[제출 파일]

Q) 최종 파일은 어떤 걸 제출하면 되나요?

private 채점 결과가 가장 좋을 것으로 예상되는 파일을 선택하여 제출하시면 됩니다.

Q) 최종 파일 제출 방식은 어떻게 되나요?

해당 대회 페이지에서 제출 메뉴를 통해 진행할 수 있습니다. 제출할 파일을 선택 후 제출 버튼을 클릭하면 제출이 진행됩니다.

Q) Baseline 코드에서 쓴 라이브러리만 사용해야 하나요?

베이스라인은 참고 용 자료이며 참가자분들만의 코드를 작성해 주시면 됩니다.

Q) 제출 결과물을 삭제하고 싶어요

제출 결과물을 개별 삭제하는 것은 불가능합니다.

Q) 대회 종료 후에도 결과물 제출이 가능한가요?

연습이 가능한 대회는 제출이 가능합니다.

Q) 제출 파일 점수 확인은 어떻게 하나요?

최고 점수는 리더보드에 표시되며 각 파일의 점수는 제출 탭에서 확인하실 수 있습니다.

Q) 최종 파일 선택 개수는 몇개 인가요?

최종 파일 선택 개수는 대회 규칙에서 확인해 주시기 바랍니다.

Q) csv파일 제출 시 에러가 발생합니다.

제공된 sample_submission.csv 파일과 제출 파일의 행, 열 의 크기가 동일해야 하며, 만약 해당 부분이 일치하지 않을 경우 에러가 발생할 수 있습니다.

[리더보드 점수]

Q) 리더보드에서 점수가 삭제된 이유가 뭔가요?

대회 규정 위반이 의심되는 경우 치팅 처리되어 점수가 삭제됩니다. 점수 복구를 위해서는 코드를 제출하여 검증을 받아야 합니다.

Q) 리더보드 업데이트 시간이 어떻게 되나요?

Public Score는 실시간으로 최고 점수로 업데이트되며, Private Score는 대회 종료 후 점수 계산에 오류가 없으면 공개됩니다.

Q) 동점인 경우 어떻게 하나요?

동점의 경우 해당 점수를 먼저 기록한 팀이 높은 순위에 위치하게 됩니다.

Q) 리더보드 점수에 문제가 있는 것 같습니다.

리더보드 점수에 이상이 있다고 여겨지는 경우 데이콘 계정의 메일로 해당 제출물을 설명과 함께 전달해 주시면 확인하여 답변드립니다.

Q) Private점수 확인 가능한가요?

최종 선택한 파일 이외의 제출물에 대해서는 따로 Private Score를 계산하지 않습니다. 다만, 대회 종료 이후 연습 기간에는 정답 파일을 제출하면 제출 탭에서 Private Score를 확인하실 수 있습니다.

Q) Private, Public 차이가 뭔가요?

Test Data를 특정한 비율로 나누어 Private Score와 Public Score를 계산합니다. Public Score는 대회 기간 중에 리더보드에서 확인가능합니다. Private Score는 대회 종료 후 리더보드에서 확인 가능하며 Private Score를 통해 최종 순위가 결정됩니다.

[코드 제출]

Q) 코드 제출에 포함되어야 하는 내용은 어떤 것이 있나요?

상세한 제출 항목은 규칙의 코드 및 발표자료 제출 규칙을 참고 부탁드립니다.

[규정]

Q) 코드 검증 과정에서 규정 위반이란 어떤 것 인가요?

허가되지 않은 외부 데이터 및 사전 학습 모델 사용 시 규정 위반 처리될 수 있습니다.

Q) GPU로 인해 결과물 재현이 되지 않아도 괜찮나요?

최종 제출 점수 재현이 100% 일치하지 않더라도, 순위가 변경되지 않을 수준의 차이는 감안하여 수상자를 결정하게 됩니다.

Q) 어떤 경우가 Data leakage에 해당되나요?

Data leakage 대회 규칙 부분 참고 부탁드립니다.

댓글 16개

로그인이 필요합니다

comment

0 / 1000

yeongjaeyou

2025.01.15 13:37

데이터 증강 관련하여 문의드립니다.

1. 무료 LLM을 사용하여 새로운 한글 리뷰를 생성하고 이를 학습 데이터에 포함시키는 것이 가능한가요?

2. '제공된 훈련 데이터를 증강할 수 있다'는 규칙이 있는데, 이는
- 기존 훈련 데이터의 변형만 허용되는 것인지
- 아니면 유사한 새로운 리뷰 생성도 가능한 것인지 명확한 기준을 알고 싶습니다.

답변 부탁드립니다.

DACON.GM

2025.01.15 13:57

문의주신 내용에 대한 답변입니다.
1. 생성 모델을 통해 증강하는 것은 가능합니다. 다만 생성 모델 역시 사전학습모델을 활용하려는 경우, '사전학습모델 사용 규칙'을 따릅니다.
2. 코드로 재현될 수 있는 범위에서의 증강입니다. 즉 특정 증강 알고리즘, 생성 모델 등의 방법으로 데이터를 증강할 수 있습니다. (직접 수기로 작성한 변형 데이터 등은 불가능)
감사합니다.

DACON.PSH

2025.01.15 15:41

삭제된 댓글입니다

시호

2025.02.04 16:52

이번 대회 평가에서 자릿수를 맞추는 것이 중요해보입니다.
근데, train.csv 일부(예를 들어 TRAIN_00824, TRAIN_00069 등 328개 데이터)에서 input과 output의 글자수가 맞지 않는 것이 확인됩니다.
아마도 output데이터의 문장 맨 뒤에 공백이 붙으면서 발생하는 것 같습니다.
이 공백을 지운 것(글자수를 완전히 맞춘것)이 실제 정답이어야 하는 건지, 아니면 의도된 것인지, 혹은 뒤 공백에 대해서는 점수 영향이 없는 지 궁금합니다.

DACON.PSH

2025.02.04 17:47

안녕하세요. 시호님.
공백을 기준으로 문자를 분리하여 계산하며, 연속된 공백이나 문장 맨 뒤의 공백은 점수에 영향을 미치지 않습니다.
즉, 문자에 대해서만 점수 계산이 이루어집니다.
감사합니다.

라퓨타

2025.02.12 15:04

llm 모델 관련하여 문의드립니다.

사전학습모델 사용 규칙에 법적 제약이 없어야 된다는 조항이 있던데 cc-by-nc-4.0 라이센스인 모델은 사용해도 될까요?

DACON.GM

2025.02.12 15:44

네, cc-by-nc-4.0 라이센스는 '상업적 이용'이 불가능한 제약이 있기 때문에 사용에 법적 제약이 존재합니다.
따라서 해당 라이센스 모델은 사용이 불가능합니다.

goorm

2025.02.14 01:42

사전학습모델 규칙 관련하여 문의드립니다.
License: mit 와 pache-2.0 모델 사용 가능한지 궁금합니다.
감사합니다.

DACON.GM

2025.02.14 09:00

사용 가능합니다.

goorm

2025.02.21 14:17

삭제된 댓글입니다

DACON.GM

2025.02.21 14:09

앙상블 추론 방식은 충분히 가능한 방법입니다.

시호

2025.02.23 16:50

패키지 사용 관련해서 문의드립니다.
py-hanspell 패키지는 네이버 맞춤법 검사기를 활용한 MIT 라이선스의 패키지입니다. (https://github.com/ssut/py-hanspell)
혹시 해당 패키지 사용은 가능할까요?

DACON.GM

2025.02.24 09:08

사용 가능합니다.

시호

2025.02.26 09:59

삭제된 댓글입니다

시호

2025.02.26 09:59

데이터나 모델 사용 가능 여부 질문해도 될까요?
1. llama2나 3와 같은 meta에서 승인이 필요한 모델 및 라마의 변형모델(MLP-KTLim/llama-3-Korean-Bllossom-8B)
2. 표준국어대사전과 같은 외부 단어 사전

DACON.GM

2025.02.26 10:21

1. MLP-KTLim/llama-3-Korean-Bllossom-8B는 사용 가능합니다.
2. 표준국어대사전은 외부데이터에 해당하므로 사용이 불가능합니다. 단, 사전학습모델의 Vocab(어휘 집합)은 사용 가능합니다. 이 경우에도 마찬가지로 사전 학습 모델 사용 규칙을 따라야합니다.

📣 댓글 작성 창의 위치가 댓글 리스트 상단으로 이동했습니다!

목록으로

경진대회 만족도 설문

대회 - 난독화된 한글 리뷰 복원 및 생성 AI 경진대회

10달 전

현재 글

DAKER! 대회 관련 문의

대회 - 난독화된 한글 리뷰 복원 및 생성 AI 경진대회

일 년 전

제공 데이터 논문 사용 신청입니다.

대회 - 난독화된 한글 리뷰 복원 및 생성 AI 경진대회

10달 전