HD Hyundai AI Challenge

알고리즘 | 채용 | 정형 | 조선해양 | 회귀 | MAE

  • moneyIcon Prize : 2,000만원
  • 1,655 Users Completed

 

[Remind] 대회 규칙 관련 상세 설명

2023.10.06 11:43 1,974 Views

안녕하세요. HD현대 AI Challenge 참가자 여러분.

대회가 시작된 지 약 2주일이 되어가는 시점에서 대회 규칙 관련 Remind 안내를 재차 드립니다.

참가자 여러분들께서는 다시 한번 규칙을 확인하시어, 대회 결과에 불이익이 받는 일이 없도록 반드시 유의 부탁드립니다.


  • Data Leakage 관련

해커톤(경진대회) 특성 상, 리더보드 제출을 위해 추론에 사용될 test 데이터들이 사전에 주어지지만, 실제 모델을 서비스하는 환경에서는 test 데이터들이 어떠한 데이터들이 몇개가 입력으로 들어올 지 전혀 알 수 없습니다.

따라서 해커톤(경진대회) 역시, Test 데이터들을 '전혀 알 수 없고, 볼 수 없다' 라고 가정하고 진행해야합니다.


대표적인 Data Leakage에 해당하는 사례

  • Label Encoding 시 Test 데이터로부터 Encoder를 fit 시키는 경우
  • Scaler 사용 시 Test 데이터로부터 Scaler를 fit 시키는 경우
  • Test 데이터에 대한 결측치 보간 시 Test 데이터의 통계 정보(평균, 최빈값 등)를 사용하는 경우
  • 파생변수를 생성할 시 2개 이상의 Test 데이터들의 정보를 활용할 경우
  • Test 데이터들의 이동 평균을 활용하는 경우
  • Test 데이터들을 모델 학습에 활용하는 경우 (이번 해커톤에서는 Pseudo-Labeling도 허용하지 않습니다)
  • Test 데이터에 pandas의 get_dummies() 함수를 적용하는 경우
  • Test 데이터의 index 정보 혹은 row 개수 정보를 활용하는 경우
  • Test 데이터로부터 EDA를 진행한 결과(인사이트)를 전처리, 모델 학습에 적용하는 경우
  • 이 밖의 Test 데이터들의 정보를 모델 학습에 활용하는 모든 경우


대표적인 Data Leakage에 해당하지 않는 사례

  • 독립적인 샘플(행(row)) 내에서의 모든 연산 혹은 파생 변수 생성
  • 예를 들어, Test['C'] = Test['A'] + Test['B']와 같이 독립적인 샘플 내에서 A Column과 B Column을 더한 새로운 파생 변수 C Column을 생성하는 경우
  • Train 데이터의 통계 정보를 Test 데이터에 적용하여 전처리하는 경우 혹은 파생 변수를 생성하는 경우
  • Test 데이터의 결측치를 Train 데이터의 통계 정보를 바탕으로 보간하는 경우 등등


  • 외부 데이터 및 사전 학습 모델

사용에 법적 제약이 없으며, 누구나 변경, 재배포할 수 있는 공개된 외부 데이터 사용 가능

법적 제약이 없으며 논문으로 공개된 베이스의 사전 학습 모델(Pre-trained Model) 사용 가능


  • 유의 사항

모든 학습, 추론의 과정 그리고 추론의 결과물들은 정상적인 코드를 바탕으로 이루어져야하며, 비정상적인 방법으로 얻은 제출물들은 적발 시 규칙 위반에 해당됩니다.

[중요] 제공한 학습 데이터로부터 모델 학습의 과정이 필수적으로 존재해야함



감사합니다.

Login Required
0 / 1000
율동공원
2023.10.07 00:02

Test 데이터에서 2개 이상의 특성을 통한 파생 변수를 만드는 대신 독립적인 샘플(행(row)) 내에서의 모든 연산 혹은 파생 변수 생성시에는 아무 문제가 없다고 이해해도 될까요?

EISLab_이희원
2023.10.07 14:42

Test 데이터를 학습에 사용하지 않았으니 상관없을 겁니다..!

율동공원
2023.10.07 20:39

감사합니다:)