도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회

알고리즘 | 언어 | LLM | MLOps | QA | Cosine Similarity

  • moneyIcon 상금 : 1000만 원
  • 1,375명 마감

1. 리더 보드

  • 평가 산식 : Cosine Similarity (코사인 유사도) [예시 코드]
  • Public score : 전체 테스트 데이터 중 사전 샘플링된 40%
  • Private score : 전체 테스트 데이터 100%


2. 평가 방식

  • 1차 평가 : 리더보드 Private Score
  • 2차 평가 : 2차 평가 희망팀 코드 및 PPT 제출 후 코드 검증 및 2차 평가 진행
  • Private 상위 10팀은 필수 제출 대상
  • 2차 평가는 PPT 서면평가와 자체 비공개 질의 데이터를 통한 응답 결과의 주최측 내부 정성 평가로 구성됩니다.
  • 2차 평가 기준

※ 내부 평가의 비공개 질의 데이터 샘플은 참가자에게 공개되지 않으며, 제출된 코드와 모델 파일로부터 추론 후 결과 품질을 심사위원이 직접 '정성 평가'합니다.

※ 내부 평가의 추론 리소스 평가는 Pass / Non-Pass 방식으로 진행되며, Pass의 경우 만점(5점)이며 Non-Pass의 경우 최하점(0점)이 부여됩니다.

※ 내부 평가의 추론 리소스 평가에 기준이 되는 컴퓨팅 리소스는 A100-80GB X 2대 (Total VRAM 160GB) 이며, 해당 리소스 범위 내에서 모델이 동작할 수 있어야합니다.


3. 개인 또는 팀 참여 규칙

  • 개인 또는 팀을 이루어 참여할 수 있습니다.
  • 개인 참가 방법 : 팀 신청 없이, 자유롭게 제출탭에서 제출 가능
  • 팀 참가 방법 : 팀 탭에서 가능, 상세 내용은 팀 탭에서 팀 병합 정책 확인
  • 팀 구성 방법: 팀 페이지에서 팀 구성 안내 확인
  • 팀 최대 인원: 5 명
  • 동일인이 개인 또는 복수팀에 중복하여 등록 불가

  

4. API, 외부 데이터 및 사전 학습 모델

  • 사용에 법적 제약이 없으며, 누구나 변경, 재배포할 수 있는 공개된 외부 데이터 사용 가능
  • 사용에 법적 제약이 없으며, 오픈소스로 공개된 사전 학습 모델(Pre-trained Model) 사용 가능
  • 단, Hugging Face 내 sosoai가 제공하는 모든 'hansoldeco' 관련 모델 사용 불가능
  • API를 통한 외부데이터 수집, 데이터 전처리는 가능하나, API를 통한 추론은 불가능합니다. (Ex. ChatGPT API를 통한 추론 등 불가능)
  • 반드시 언어 모델 학습의 과정이 존재해야하며, 학습된 언어 모델을 바탕으로 추론이 이루어져야합니다.

 

5. 코드 및 PPT 제출 규칙

  • 대회 종료 후 2차 평가 대상자는 아래의 양식에 맞추어 코드와 PPT를 dacon@dacon.io 메일로 기한 내에 제출
  • 제출한 코드는 Private Score 복원이 가능해야 함

o  코드에 데이터 입/출력 상대 경로 포함

o  코드 파일 확장자: .py, .ipynb

o  코드와 주석 인코딩: UTF-8

o  모든 코드는 오류 없이 실행되어야 함(라이브러리 로딩 코드 포함)

o  개발 환경(OS) 및 라이브러리 버전 기재

  • 제출 파일 목록

o Private Score 복원이 가능한 전처리, 학습, 추론 코드 파일 (필수)

o Private Score 복원이 가능한 모델 weight 파일 (필수)

o  내부 평가용 추론(Inference) 코드 파일 (필수, 중요)

-> test.csv를 Input으로 받아 모델 입력 형태에 맞게 전처리가 이루어지고, Model Checkpoint(weight) 파일을 불러와 submission 추론이 'Text' 형태로 이루어지는 별도의 추론(Inference) 전용 코드를 작성하여 제출해야합니다.

o 사용한 외부 데이터 파일 및 출처 (필수)

o 서면 평가 PPT 자료 (필수)

-> 2차 평가 기준(2. 평가 방식 -> 2차 평가 기준)에 맞춰 자유 양식으로 작성


6. 유의 사항

  • 1일 최대 제출 횟수: 3 회
  • 사용 가능 언어: Python
  • 모든 csv 형식의 데이터와 제출 파일은 UTF-8 인코딩을 적용합니다.
  • 모델 학습과 추론에서 평가 데이터셋 정보 활용(Data Leakage)시 수상 제외 (평가 데이터셋의 Pseudo Labeling 포함)
  • 모든 학습, 추론의 과정 그리고 추론의 결과물들은 정상적인 코드를 바탕으로 이루어져야하며, 비정상적인 방법으로 얻은 제출물들은 적발 시 규칙 위반에 해당됩니다.
  • 정상적인 코드의 범주 : 반드시 제공 데이터로부터 언어 모델 학습의 과정이 존재해야하며, 학습된 언어 모델을 바탕으로 추론이 이루어져야합니다.
  • 최종 순위는 선택된 파일 중에서 채점되므로 참가자는 제출 창에서 자신이 최종적으로 채점 받고 싶은 파일을 2개를 선택해야 함
  • 대회 직후 공개되는 Private 랭킹은 최종 순위가 아니며 코드 검증 후 수상자가 결정됨
  • 데이콘은 부정 제출 행위를 금지하고 있으며 데이콘 대회 부정 제출 이력이 있는 경우 평가가 제한됩니다. 자세한 사항은 아래의 링크를 참고해 주시기 바랍니다.

https://dacon.io/notice/notice/13

 

7. 토론(질문)

  • 대회 운영 및 데이터 이상에 관련된 질문 외에는 답변을 드리지 않고 있습니다. 기타 질문은 토론 페이지를 통해 자유롭게 토론해주시기 바랍니다.
  • 데이콘 답변을 희망하는 경우 토크 게시글 댓글로 질문을 올려 주시기 바랍니다.

예) [DACON 답변 요청] 시상식은 언제 열리나요?


대회 주요 일정

  1. 01.29

    대회 시작

  2. 03.04

    팀 병합 마감

  3. 03.11

    대회 종료

  4. 03.14

    코드 및 PPT 제출 마감

  5. 03.24

    코드 검증 및 2차 평가

  6. 03.25

    최종 수상자 발표

1. 리더 보드

  • 평가 산식 : Cosine Similarity (코사인 유사도) [예시 코드]
  • Public score : 전체 테스트 데이터 중 사전 샘플링된 40%
  • Private score : 전체 테스트 데이터 100%


2. 평가 방식

  • 1차 평가 : 리더보드 Private Score
  • 2차 평가 : 2차 평가 희망팀 코드 및 PPT 제출 후 코드 검증 및 2차 평가 진행
  • Private 상위 10팀은 필수 제출 대상
  • 2차 평가는 PPT 서면평가와 자체 비공개 질의 데이터를 통한 응답 결과의 주최측 내부 정성 평가로 구성됩니다.
  • 2차 평가 기준

※ 내부 평가의 비공개 질의 데이터 샘플은 참가자에게 공개되지 않으며, 제출된 코드와 모델 파일로부터 추론 후 결과 품질을 심사위원이 직접 '정성 평가'합니다.

※ 내부 평가의 추론 리소스 평가는 Pass / Non-Pass 방식으로 진행되며, Pass의 경우 만점(5점)이며 Non-Pass의 경우 최하점(0점)이 부여됩니다.

※ 내부 평가의 추론 리소스 평가에 기준이 되는 컴퓨팅 리소스는 A100-80GB X 2대 (Total VRAM 160GB) 이며, 해당 리소스 범위 내에서 모델이 동작할 수 있어야합니다.


3. 개인 또는 팀 참여 규칙

  • 개인 또는 팀을 이루어 참여할 수 있습니다.
  • 개인 참가 방법 : 팀 신청 없이, 자유롭게 제출탭에서 제출 가능
  • 팀 참가 방법 : 팀 탭에서 가능, 상세 내용은 팀 탭에서 팀 병합 정책 확인
  • 팀 구성 방법: 팀 페이지에서 팀 구성 안내 확인
  • 팀 최대 인원: 5 명
  • 동일인이 개인 또는 복수팀에 중복하여 등록 불가

  

4. API, 외부 데이터 및 사전 학습 모델

  • 사용에 법적 제약이 없으며, 누구나 변경, 재배포할 수 있는 공개된 외부 데이터 사용 가능
  • 사용에 법적 제약이 없으며, 오픈소스로 공개된 사전 학습 모델(Pre-trained Model) 사용 가능
  • 단, Hugging Face 내 sosoai가 제공하는 모든 'hansoldeco' 관련 모델 사용 불가능
  • API를 통한 외부데이터 수집, 데이터 전처리는 가능하나, API를 통한 추론은 불가능합니다. (Ex. ChatGPT API를 통한 추론 등 불가능)
  • 반드시 언어 모델 학습의 과정이 존재해야하며, 학습된 언어 모델을 바탕으로 추론이 이루어져야합니다.

 

5. 코드 및 PPT 제출 규칙

  • 대회 종료 후 2차 평가 대상자는 아래의 양식에 맞추어 코드와 PPT를 dacon@dacon.io 메일로 기한 내에 제출
  • 제출한 코드는 Private Score 복원이 가능해야 함

o  코드에 데이터 입/출력 상대 경로 포함

o  코드 파일 확장자: .py, .ipynb

o  코드와 주석 인코딩: UTF-8

o  모든 코드는 오류 없이 실행되어야 함(라이브러리 로딩 코드 포함)

o  개발 환경(OS) 및 라이브러리 버전 기재

  • 제출 파일 목록

o Private Score 복원이 가능한 전처리, 학습, 추론 코드 파일 (필수)

o Private Score 복원이 가능한 모델 weight 파일 (필수)

o  내부 평가용 추론(Inference) 코드 파일 (필수, 중요)

-> test.csv를 Input으로 받아 모델 입력 형태에 맞게 전처리가 이루어지고, Model Checkpoint(weight) 파일을 불러와 submission 추론이 'Text' 형태로 이루어지는 별도의 추론(Inference) 전용 코드를 작성하여 제출해야합니다.

o 사용한 외부 데이터 파일 및 출처 (필수)

o 서면 평가 PPT 자료 (필수)

-> 2차 평가 기준(2. 평가 방식 -> 2차 평가 기준)에 맞춰 자유 양식으로 작성


6. 유의 사항

  • 1일 최대 제출 횟수: 3 회
  • 사용 가능 언어: Python
  • 모든 csv 형식의 데이터와 제출 파일은 UTF-8 인코딩을 적용합니다.
  • 모델 학습과 추론에서 평가 데이터셋 정보 활용(Data Leakage)시 수상 제외 (평가 데이터셋의 Pseudo Labeling 포함)
  • 모든 학습, 추론의 과정 그리고 추론의 결과물들은 정상적인 코드를 바탕으로 이루어져야하며, 비정상적인 방법으로 얻은 제출물들은 적발 시 규칙 위반에 해당됩니다.
  • 정상적인 코드의 범주 : 반드시 제공 데이터로부터 언어 모델 학습의 과정이 존재해야하며, 학습된 언어 모델을 바탕으로 추론이 이루어져야합니다.
  • 최종 순위는 선택된 파일 중에서 채점되므로 참가자는 제출 창에서 자신이 최종적으로 채점 받고 싶은 파일을 2개를 선택해야 함
  • 대회 직후 공개되는 Private 랭킹은 최종 순위가 아니며 코드 검증 후 수상자가 결정됨
  • 데이콘은 부정 제출 행위를 금지하고 있으며 데이콘 대회 부정 제출 이력이 있는 경우 평가가 제한됩니다. 자세한 사항은 아래의 링크를 참고해 주시기 바랍니다.

https://dacon.io/notice/notice/13

 

7. 토론(질문)

  • 대회 운영 및 데이터 이상에 관련된 질문 외에는 답변을 드리지 않고 있습니다. 기타 질문은 토론 페이지를 통해 자유롭게 토론해주시기 바랍니다.
  • 데이콘 답변을 희망하는 경우 토크 게시글 댓글로 질문을 올려 주시기 바랍니다.

예) [DACON 답변 요청] 시상식은 언제 열리나요?


대회 주요 일정

  1. 01.29

    대회 시작
  2. 03.04

    팀 병합 마감
  3. 03.11

    대회 종료
  4. 03.14

    코드 및 PPT 제출 마감
  5. 03.24

    코드 검증 및 2차 평가
  6. 03.25

    최종 수상자 발표