<2차 예선> 데이터·AI를 활용한 물가 예측 경진대회 : 농산물 가격을 중심으로

알고리즘 | 농산물 | 정형 | 시계열 | 회귀 | CPU 추론 시간 | NMAE

  • moneyIcon 상금 : 5,800만원
  • 50명 마감
마감

1. 리더 보드 (2차 예선)

  • 평가 산식 : NMAE (Normalized Mean Absolute Error, 정규화된 평균 절대 오차)

※ 2차 예선 평가 산식 추가 변경 사항 (Weight NMAE)

  • 순별 가중치 : 각 품목의 T+1순, T+2순, T+3순 예측에 대해 각각 가중치가 적용됩니다.
  • 품목별 가중치 : 순별 가중치가 적용된 후, 각 품목에 추가적으로 품목별 가중치가 적용됩니다.
  • 가중치 적용 방식 : 가중치는 NMAE 오차 값에 각각 곱하여 적용됩니다. 이때, 가중평균이 아닌 산술평균으로 계산됩니다.
  • 최종 점수 : 가중치가 적용된 최종 NMAE 점수는 1 이상의 값이 나올 수 있습니다.
  • 가중치 공개 여부 : 적용되는 가중치 수치는 2차 예선 기간 동안 공개하지 않습니다.


  • Public score : 전체 테스트 데이터 중 사전 샘플링된 50%
  • Private score : 전체 테스트 데이터 중 나머지 50%


2. 평가 방식

  • 2차 예선 평가 : 리더보드 Private Score 90% + 추론 시간 평가 10%

  • Private Score는 2차 예선 종료 후 일괄 채점하여 공개
  • 추론 시간 평가는 코드 검증과 동시에 데이콘에서 직접 측정하여 진행
  • 최종 점수 산식의 가중치 N은 비공개
  • 동점자의 경우, 기존 리더보드 순위 산정 방식을 따름
  • 본선 진출 후보 팀 중 코드 제출을 완료하고 코드 검증을 통과한 최종 점수 상위 10팀이 본선 진출
  • 추론 시간 평가 (최대 1시간 이내)
  • CPU 환경에서 작동해야하며, CPU 환경에서의 추론 속도를 평가 합니다. (각 10번 실행 후 최고, 최저 추론 시간을 제외한 평균으로 측정)
  • 추론 시간은 평가 데이터를 불러오고 전처리 후 모델 입력부터 출력 그리고 submission 파일 생성까지의 과정을 평가합니다.
  • 코드 제출 시 제출하는 추론 용 코드로 실행하며, 미리 전처리된 파일을 불러오는 방식은 규칙 위반에 해당합니다.
  • 제공하는 평가 데이터 원본을 불러오는 것을 원칙으로 합니다.
  • 외부 데이터 사용 시에도 외부 데이터 원본을 불러오는 것을 원칙으로 합니다.
  • (중요) 단, 학습 데이터 기간에 대한 데이터는 미리 전처리하여 불러와도 문제 없으나 평가 데이터 시점에 해당하는 데이터는 추론과 같이 불러와야합니다.
  • 평가 서버 스펙
  • CPU : Intel(R) Core(TM) i9-10920X CPU @ 3.50GHz
  • 물리적 코어 수 : 12
  • 논리적 코어 수 : 24
  • 아키텍쳐 : x86_64 (64비트)
  • 메모리(RAM) : 180GB
  • 운영체제 : Linux (버전: 5.4.0-150-generic, glibc 2.10 기반)


3. 개인 또는 팀 참여 규칙

  • '데이터·AI를 활용한 물가 예측 경진대회 : 농산물 가격을 중심으로' <2차 예선> 진출 20팀
  • 추가 팀 결성 및 팀 구성원 변경 불가능
  • 팀명 변경 불가능

  

4. 외부 데이터 및 사전 학습 모델

  • 사용에 법적 제약이 없는 모든 외부 데이터, API 사용 가능
  • 법적 제약이 없으며 논문으로 공개된 베이스의 사전 학습 모델(Pre-trained Model) 사용 가능

 

5. [중요] 2차 예선 코드 제출 규칙

  • 2차 예선 종료 후 본선 진출 후보 팀은 아래의 양식에 맞추어 2차 예선 코드를 dacon@dacon.io 메일로 기한 내에 제출
  • 제출한 코드는 Private Score 복원이 가능해야 함

o  코드 파일 확장자: .py

o  코드와 주석 인코딩: UTF-8

o 모든 코드는 .py로 작성되어야하며 전처리, 학습, 추론의 과정을 반드시 나누어 작성해야함

o 코드 실행 설명서인 readme 파일은 반드시 동봉하여 제출

o 외부 데이터 사용 시 해당 출처, 수집 코드 등을 반드시 동봉하여 제출

o  모든 코드는 오류 없이 실행되어야 함(라이브러리 로딩 코드 포함)

o  개발 환경(OS) 및 라이브러리 버전 기재 (requirement.txt)

  • 제출 파일 목록

o  Private Score 복원이 가능한 전체 코드 파일

o Private Score 복원이 가능한 별도 CPU 추론 용 코드 파일 (추론 시간 평가에 활용)

o Private Score 복원이 가능한 모델 weight 파일


6. 유의 사항

  • 1일 최대 제출 횟수: 30 회
  • 사용 가능 언어: Python
  • 모든 csv 형식의 데이터와 제출 파일은 UTF-8 인코딩을 적용합니다.
  • 모델 학습과 추론에서 평가 데이터셋 정보 활용(Data Leakage)시 본선 진출 불가능
  • 일반적으로 Test Dataset은 '아예 볼 수 없다' 라고 가정하고 진행해야하며 코드 역시 이를 반영해야합니다.
  • 추론을 위해 주어진 Test Dataset Sample은 추론에만 활용할 수 있습니다.
  • 각 Test Sample의 예측 시점에 맞는 데이터만 사용해야하며, 다른 Test Sample 데이터를 활용하여 예측에 활용하면 Data Leakage에 해당합니다. (Test Dataset Sample 간 교차 활용 불가능)
  • Test Dataset Sample들을 조합하여 비정상적으로 정답을 유추하는 행위는 실격 사유에 해당합니다.
  • Pseudo Labeling 기법 사용 불가능
  • 모든 학습, 추론의 과정 그리고 추론의 결과물들은 정상적인 코드를 바탕으로 이루어져야하며, 비정상적인 방법으로 얻은 제출물들은 적발 시 규칙 위반에 해당됩니다.
  • 모델은 반드시 AI 모델의 학습 과정이 있어야하며, 예측 결과는 학습된 AI 모델의 추론 결과로 이루어져야합니다.
  • 평가 데이터 샘플들을 바탕으로 Ground-Truth (답안)를 유추하고 리더보드에 제출하는 행위는 규칙 위반에 해당합니다.
  • 최종 순위는 선택된 파일 중에서 채점되므로 참가자는 제출 창에서 자신이 최종적으로 채점 받고 싶은 파일 1개를 선택해야 함
  • 데이콘은 부정 제출 행위를 금지하고 있으며 데이콘 대회 부정 제출 이력이 있는 경우 평가가 제한됩니다. 자세한 사항은 아래의 링크를 참고해 주시기 바랍니다.

https://dacon.io/notice/notice/13

 

7. 토론(질문)

  • 대회 운영 및 데이터 이상에 관련된 질문 외에는 답변을 드리지 않고 있습니다. 기타 질문은 토론 페이지를 통해 자유롭게 토론해주시기 바랍니다.
  • 데이콘 답변을 희망하는 경우 토크 게시글 댓글로 질문을 올려 주시기 바랍니다.

예) [DACON 답변 요청] 시상식은 언제 열리나요?

대회 주요 일정

  1. 10.16

    팀 병합 마감

  2. 10.18

    2차 예선 시작

  3. 10.29

    2차 예선 종료

  4. 11.03

    본선 진출 후보팀 코드 제출 및 검증

  5. 11.04

    본선 진출팀 발표

  6. 11.14

    오프라인 본선 및 시상식

1. 리더 보드 (2차 예선)

  • 평가 산식 : NMAE (Normalized Mean Absolute Error, 정규화된 평균 절대 오차)

※ 2차 예선 평가 산식 추가 변경 사항 (Weight NMAE)

  • 순별 가중치 : 각 품목의 T+1순, T+2순, T+3순 예측에 대해 각각 가중치가 적용됩니다.
  • 품목별 가중치 : 순별 가중치가 적용된 후, 각 품목에 추가적으로 품목별 가중치가 적용됩니다.
  • 가중치 적용 방식 : 가중치는 NMAE 오차 값에 각각 곱하여 적용됩니다. 이때, 가중평균이 아닌 산술평균으로 계산됩니다.
  • 최종 점수 : 가중치가 적용된 최종 NMAE 점수는 1 이상의 값이 나올 수 있습니다.
  • 가중치 공개 여부 : 적용되는 가중치 수치는 2차 예선 기간 동안 공개하지 않습니다.


  • Public score : 전체 테스트 데이터 중 사전 샘플링된 50%
  • Private score : 전체 테스트 데이터 중 나머지 50%


2. 평가 방식

  • 2차 예선 평가 : 리더보드 Private Score 90% + 추론 시간 평가 10%

  • Private Score는 2차 예선 종료 후 일괄 채점하여 공개
  • 추론 시간 평가는 코드 검증과 동시에 데이콘에서 직접 측정하여 진행
  • 최종 점수 산식의 가중치 N은 비공개
  • 동점자의 경우, 기존 리더보드 순위 산정 방식을 따름
  • 본선 진출 후보 팀 중 코드 제출을 완료하고 코드 검증을 통과한 최종 점수 상위 10팀이 본선 진출
  • 추론 시간 평가 (최대 1시간 이내)
  • CPU 환경에서 작동해야하며, CPU 환경에서의 추론 속도를 평가 합니다. (각 10번 실행 후 최고, 최저 추론 시간을 제외한 평균으로 측정)
  • 추론 시간은 평가 데이터를 불러오고 전처리 후 모델 입력부터 출력 그리고 submission 파일 생성까지의 과정을 평가합니다.
  • 코드 제출 시 제출하는 추론 용 코드로 실행하며, 미리 전처리된 파일을 불러오는 방식은 규칙 위반에 해당합니다.
  • 제공하는 평가 데이터 원본을 불러오는 것을 원칙으로 합니다.
  • 외부 데이터 사용 시에도 외부 데이터 원본을 불러오는 것을 원칙으로 합니다.
  • (중요) 단, 학습 데이터 기간에 대한 데이터는 미리 전처리하여 불러와도 문제 없으나 평가 데이터 시점에 해당하는 데이터는 추론과 같이 불러와야합니다.
  • 평가 서버 스펙
  • CPU : Intel(R) Core(TM) i9-10920X CPU @ 3.50GHz
  • 물리적 코어 수 : 12
  • 논리적 코어 수 : 24
  • 아키텍쳐 : x86_64 (64비트)
  • 메모리(RAM) : 180GB
  • 운영체제 : Linux (버전: 5.4.0-150-generic, glibc 2.10 기반)


3. 개인 또는 팀 참여 규칙

  • '데이터·AI를 활용한 물가 예측 경진대회 : 농산물 가격을 중심으로' <2차 예선> 진출 20팀
  • 추가 팀 결성 및 팀 구성원 변경 불가능
  • 팀명 변경 불가능

  

4. 외부 데이터 및 사전 학습 모델

  • 사용에 법적 제약이 없는 모든 외부 데이터, API 사용 가능
  • 법적 제약이 없으며 논문으로 공개된 베이스의 사전 학습 모델(Pre-trained Model) 사용 가능

 

5. [중요] 2차 예선 코드 제출 규칙

  • 2차 예선 종료 후 본선 진출 후보 팀은 아래의 양식에 맞추어 2차 예선 코드를 dacon@dacon.io 메일로 기한 내에 제출
  • 제출한 코드는 Private Score 복원이 가능해야 함

o  코드 파일 확장자: .py

o  코드와 주석 인코딩: UTF-8

o 모든 코드는 .py로 작성되어야하며 전처리, 학습, 추론의 과정을 반드시 나누어 작성해야함

o 코드 실행 설명서인 readme 파일은 반드시 동봉하여 제출

o 외부 데이터 사용 시 해당 출처, 수집 코드 등을 반드시 동봉하여 제출

o  모든 코드는 오류 없이 실행되어야 함(라이브러리 로딩 코드 포함)

o  개발 환경(OS) 및 라이브러리 버전 기재 (requirement.txt)

  • 제출 파일 목록

o  Private Score 복원이 가능한 전체 코드 파일

o Private Score 복원이 가능한 별도 CPU 추론 용 코드 파일 (추론 시간 평가에 활용)

o Private Score 복원이 가능한 모델 weight 파일


6. 유의 사항

  • 1일 최대 제출 횟수: 30 회
  • 사용 가능 언어: Python
  • 모든 csv 형식의 데이터와 제출 파일은 UTF-8 인코딩을 적용합니다.
  • 모델 학습과 추론에서 평가 데이터셋 정보 활용(Data Leakage)시 본선 진출 불가능
  • 일반적으로 Test Dataset은 '아예 볼 수 없다' 라고 가정하고 진행해야하며 코드 역시 이를 반영해야합니다.
  • 추론을 위해 주어진 Test Dataset Sample은 추론에만 활용할 수 있습니다.
  • 각 Test Sample의 예측 시점에 맞는 데이터만 사용해야하며, 다른 Test Sample 데이터를 활용하여 예측에 활용하면 Data Leakage에 해당합니다. (Test Dataset Sample 간 교차 활용 불가능)
  • Test Dataset Sample들을 조합하여 비정상적으로 정답을 유추하는 행위는 실격 사유에 해당합니다.
  • Pseudo Labeling 기법 사용 불가능
  • 모든 학습, 추론의 과정 그리고 추론의 결과물들은 정상적인 코드를 바탕으로 이루어져야하며, 비정상적인 방법으로 얻은 제출물들은 적발 시 규칙 위반에 해당됩니다.
  • 모델은 반드시 AI 모델의 학습 과정이 있어야하며, 예측 결과는 학습된 AI 모델의 추론 결과로 이루어져야합니다.
  • 평가 데이터 샘플들을 바탕으로 Ground-Truth (답안)를 유추하고 리더보드에 제출하는 행위는 규칙 위반에 해당합니다.
  • 최종 순위는 선택된 파일 중에서 채점되므로 참가자는 제출 창에서 자신이 최종적으로 채점 받고 싶은 파일 1개를 선택해야 함
  • 데이콘은 부정 제출 행위를 금지하고 있으며 데이콘 대회 부정 제출 이력이 있는 경우 평가가 제한됩니다. 자세한 사항은 아래의 링크를 참고해 주시기 바랍니다.

https://dacon.io/notice/notice/13

 

7. 토론(질문)

  • 대회 운영 및 데이터 이상에 관련된 질문 외에는 답변을 드리지 않고 있습니다. 기타 질문은 토론 페이지를 통해 자유롭게 토론해주시기 바랍니다.
  • 데이콘 답변을 희망하는 경우 토크 게시글 댓글로 질문을 올려 주시기 바랍니다.

예) [DACON 답변 요청] 시상식은 언제 열리나요?

대회 주요 일정

  1. 10.16

    팀 병합 마감
  2. 10.18

    2차 예선 시작
  3. 10.29

    2차 예선 종료
  4. 11.03

    본선 진출 후보팀 코드 제출 및 검증
  5. 11.04

    본선 진출팀 발표
  6. 11.14

    오프라인 본선 및 시상식