온라인 채널 제품 판매량 예측 AI 온라인 해커톤

채용 | 알고리즘 | 정형 | 시계열 | LG Aimers | 수요 예측 | SFA

  • moneyIcon Prize : 본선 진출
  • 1,771명 마감

 

외부 데이터와 도메인 지식의 차이 그리고 허용 기준

2023.08.08 13:43 1,873 Views

안녕하세요 LG Aimers 여러분.

데이콘입니다.


최근 외부 데이터 관련 문의가 들어와 외부 데이터와 도메인 지식 간의 차이점과 허용 여부에 대해 안내드리도록 하겠습니다.

이번 LG Aimers 온라인 해커톤 (Phase2)에서는 규칙에 기재된 것과 같이 외부 데이터의 사용은 불가능하지만, 도메인 지식의 활용은 충분히 가능합니다.


다음은 외부 데이터와 도메인 지식의 정의, 차이점 그리고 허용 예시에 대한 내용입니다.


  • 정의:
  • 도메인 지식: 특정 분야나 주제에 관한 전문적인 지식이나 경험을 의미합니다. 이는 데이터나 자료의 형태가 아닌, 해당 분야의 전문가나 경험자가 가지고 있는 내재적인 지식을 의미합니다. 예를 들어, 소매업계에서의 특정 시즌의 판매 경향, 의료 분야에서의 질병 발생 패턴 등이 있습니다.
  • 외부 데이터: 제공된 해커톤 데이터셋 이외에 가져온 추가 데이터를 의미합니다. 이는 웹 크롤링, 다른 데이터베이스, 혹은 제3의 경로에서 제공받은 데이터 등 다양한 출처를 가질 수 있습니다.
  • 차이점:
  • 출처와 형태: 도메인 지식은 대개 경험, 연구, 혹은 교육을 통해 습득되며, 구체적인 데이터의 형태를 가지지 않습니다. 반면 외부 데이터는 구체적이고 측정 가능한 형태의 정보를 제공합니다.
  • 적용 방식: 도메인 지식은 주로 데이터 전처리, 피처 엔지니어링, 모델 선택, 해석 등의 과정에서 가이드로 활용됩니다. 외부 데이터는 모델 학습의 입력으로 직접 사용될 수 있습니다.
  • 허용 여부(*): 이번 LG Aimers 온라인 해커톤(Phase2)에서는 외부 데이터의 사용을 금지합니다. 그러나 도메인 지식을 활용한 피처 엔지니어링이나 모델 해석은 허용됩니다.
  • 예시(*):
  • 특정 휴일이나 이벤트 때문에 판매량이 증가할 것이라는 도메인 지식을 바탕으로 피처를 생성할 수 있습니다. 이런 지식은 외부 데이터를 가져와서 사용한 것은 아니므로 허용됩니다.
  • 반면, 다른 웹사이트에서 크롤링 또는 제공하지 않는 외부 데이터베이스로부터 특정 휴일의 실제 판매 데이터를 모델 학습에 사용하는 것은 외부 데이터 사용에 해당하므로 제한될 수 있습니다.


관련하여 문의사항이 있는 경우, 해당 게시글의 댓글이나 dacon@dacon.io으로 반드시 문의 후 진행하여 외부 데이터 사용 규칙 관련 불이익이 발생하는 경우가 없도록 부탁드리겠습니다.


감사합니다.

데이콘 드림