도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회

Algorithm | NLP | Generate AI | LLM | MLOps | QA | Cosine Similarity

Prize : 10,000,000 KRW
2024.01.29 ~ 2024.03.11 09:59 + Google Calendar
1,477 Users Completed

Practice

Overview Data Code (share) Talk Leaderboard

Submission

1. 리더 보드

평가 산식 : Cosine Similarity (코사인 유사도) [예시 코드]
Public score : 전체 테스트 데이터 중 사전 샘플링된 40%
Private score : 전체 테스트 데이터 100%

2. 평가 방식

1차 평가 : 리더보드 Private Score
2차 평가 : 2차 평가 희망팀 코드 및 PPT 제출 후 코드 검증 및 2차 평가 진행
Private 상위 10팀은 필수 제출 대상
2차 평가는 PPT 서면평가와 자체 비공개 질의 데이터를 통한 응답 결과의 주최측 내부 정성 평가로 구성됩니다.
2차 평가 기준

※ 내부 평가의 비공개 질의 데이터 샘플은 참가자에게 공개되지 않으며, 제출된 코드와 모델 파일로부터 추론 후 결과 품질을 심사위원이 직접 '정성 평가'합니다.

※ 내부 평가의 추론 리소스 평가는 Pass / Non-Pass 방식으로 진행되며, Pass의 경우 만점(5점)이며 Non-Pass의 경우 최하점(0점)이 부여됩니다.

※ 내부 평가의 추론 리소스 평가에 기준이 되는 컴퓨팅 리소스는 A100-80GB X 2대 (Total VRAM 160GB) 이며, 해당 리소스 범위 내에서 모델이 동작할 수 있어야합니다.

3. 개인 또는 팀 참여 규칙

개인 또는 팀을 이루어 참여할 수 있습니다.
개인 참가 방법 : 팀 신청 없이, 자유롭게 제출탭에서 제출 가능
팀 참가 방법 : 팀 탭에서 가능, 상세 내용은 팀 탭에서 팀 병합 정책 확인
팀 구성 방법: 팀 페이지에서 팀 구성 안내 확인
팀 최대 인원: 5 명
동일인이 개인 또는 복수팀에 중복하여 등록 불가

4. API, 외부 데이터 및 사전 학습 모델

사용에 법적 제약이 없으며, 누구나 변경, 재배포할 수 있는 공개된 외부 데이터 사용 가능
사용에 법적 제약이 없으며, 오픈소스로 공개된 사전 학습 모델(Pre-trained Model) 사용 가능
단, Hugging Face 내 sosoai가 제공하는 모든 'hansoldeco' 관련 모델 사용 불가능
API를 통한 외부데이터 수집, 데이터 전처리는 가능하나, API를 통한 추론은 불가능합니다. (Ex. ChatGPT API를 통한 추론 등 불가능)
반드시 언어 모델 학습의 과정이 존재해야하며, 학습된 언어 모델을 바탕으로 추론이 이루어져야합니다.

5. 코드 및 PPT 제출 규칙

대회 종료 후 2차 평가 대상자는 아래의 양식에 맞추어 코드와 PPT를 dacon@dacon.io 메일로 기한 내에 제출
제출한 코드는 Private Score 복원이 가능해야 함

o 코드에 데이터 입/출력 상대 경로 포함

o 코드 파일 확장자: .py, .ipynb

o 코드와 주석 인코딩: UTF-8

o 모든 코드는 오류 없이 실행되어야 함(라이브러리 로딩 코드 포함)

o 개발 환경(OS) 및 라이브러리 버전 기재

제출 파일 목록

o Private Score 복원이 가능한 전처리, 학습, 추론 코드 파일 (필수)

o Private Score 복원이 가능한 모델 weight 파일 (필수)

o 내부 평가용 추론(Inference) 코드 파일 (필수, 중요)

-> test.csv를 Input으로 받아 모델 입력 형태에 맞게 전처리가 이루어지고, Model Checkpoint(weight) 파일을 불러와 submission 추론이 'Text' 형태로 이루어지는 별도의 추론(Inference) 전용 코드를 작성하여 제출해야합니다.

o 사용한 외부 데이터 파일 및 출처 (필수)

o 서면 평가 PPT 자료 (필수)

-> 2차 평가 기준(2. 평가 방식 -> 2차 평가 기준)에 맞춰 자유 양식으로 작성

6. 유의 사항

1일 최대 제출 횟수: 10 회
사용 가능 언어: Python
모든 csv 형식의 데이터와 제출 파일은 UTF-8 인코딩을 적용합니다.
모델 학습과 추론에서 평가 데이터셋 정보 활용(Data Leakage)시 수상 제외 (평가 데이터셋의 Pseudo Labeling 포함)
모든 학습, 추론의 과정 그리고 추론의 결과물들은 정상적인 코드를 바탕으로 이루어져야하며, 비정상적인 방법으로 얻은 제출물들은 적발 시 규칙 위반에 해당됩니다.
정상적인 코드의 범주 : 반드시 제공 데이터로부터 언어 모델 학습의 과정이 존재해야하며, 학습된 언어 모델을 바탕으로 추론이 이루어져야합니다.
최종 순위는 선택된 파일 중에서 채점되므로 참가자는 제출 창에서 자신이 최종적으로 채점 받고 싶은 파일을 2개를 선택해야 함
대회 직후 공개되는 Private 랭킹은 최종 순위가 아니며 코드 검증 후 수상자가 결정됨
데이콘은 부정 제출 행위를 금지하고 있으며 데이콘 대회 부정 제출 이력이 있는 경우 평가가 제한됩니다. 자세한 사항은 아래의 링크를 참고해 주시기 바랍니다.

https://dacon.io/notice/notice/13

7. 토론(질문)

대회 운영 및 데이터 이상에 관련된 질문 외에는 답변을 드리지 않고 있습니다. 기타 질문은 토론 페이지를 통해 자유롭게 토론해주시기 바랍니다.
데이콘 답변을 희망하는 경우 토크 게시글 댓글로 질문을 올려 주시기 바랍니다.

예) [DACON 답변 요청] 시상식은 언제 열리나요?

Main Event Schedule

01.09
Start Date
02.09
Team Merger Deadline
02.09
Close

Description Rules Schedule Prize Agreement