제주 특산물 가격 예측 AI 경진대회

Data Leakage 관련 문의

2023.11.07 08:33 1,519 조회

안녕하세요. Data Leakage관련해서 문의 남깁니다.


1) 제공된 데이터를 확인해보면 trade 데이터가 존재하는데 test에는 2023-03에 대한 trade정보가 존재하지 않습니다.

trade데이터를 이용해 예측을 진행하고 싶은데 임의로 찾은 2023-03 trade정보를 test데이터에 추가하여 예측을 진행해도 되나요?


2) 만약 임의로 찾은 데이터를 test 데이터셋에 추가할 수 없다면 저희가 따로 예측한 trade값을 test 데이터에 추가해서 price값을 예측해도 되나요?


3) trade 데이터 중 "순무"의 경우 2019~2023 전체가 아닌 일부만 존재합니다. 해당 경우 임의로 찾은 trade 정보를 추가해 학습을 진행해도 괜찮을까요?


로그인이 필요합니다
0 / 1000
EISLab_이희원
2023.11.07 15:00

외부에서 찾은 데이터를 넣는 것은 대회 규칙에 어긋납니다.
저는 linear interpolation을 사용해서 2023-03 trade 데이터를 보간했는데, 이 방법을 사용하시는 것을 추천드립니다.
만약, 예측한 값을 기준으로 추론을 한다면 RMSE가 더 증가할 수 있고, Private ranking이 떨어질 수 있습니다. 사용할 수는 있지만, 딱히 추천은 드리지 않습니다.

DACON.SeungYoon
2023.11.07 15:29

안녕하세요, hhsh1121 님 
본 대회의 규칙은 외부데이터 사용금지이며, 
예측 시점은 2023.03.03 23:59:59로 설정되어 있습니다.
3월 시점의 international trade 정보는 예측 시점에서는 존재하지 않기에 제공하지 않은 것입니다. 
따라서 말씀주신 방법들은 본 대회 규칙에 어긋나는 점 참고 부탁드립니다.
감사합니다. 

비회원
2023.11.09 16:16

외부 데이터를 사용하지 않고 
주어진 international trade 파일을 통해 2023-03의 trade를 예측하는 코드를 만들어 그 예측 값을 test 데이터에 추가하는 것도 규칙위반인가요?

DACON.SeungYoon
2023.11.13 20:45

안녕하세요, 김땡땡그랑 님
해당 방법은 추론값을 추론을 위해 사용하는 것으로 규칙 위반 소지가 없습니다. 
사용하셔도 무방합니다. 
감사합니다. 

열심히하겠습니다
2023.11.08 15:53

안녕하세요.
저도 Data leakage에 대한 질문을 하나 드려도 될까요?

처음으로 대회에 참여하는 것이라 미숙해서 data leakage를 잘 몰라 여쭤봅니다.
코로나 정보를 이용하는 것은 data leakage에 해당이 될까요?
대회의 데이터에는 없어서 사용하지 않는 것이 맞다고 생각되나, 
2023년 3월 전에 알 수 있는 내용으로 코로나 확진자 수와 같은 구체적인 정보를 넣는 것이 아니라
코로나가 심했던 시절, 심하지 않았던 시절을 구분한 데이터를 넣어주는 것도 규칙에 어긋나는지 여쭤보고 싶습니다!

DACON.SeungYoon
2023.11.09 10:34

안녕하세요, 열심히하겠습니다 님
개인적 경험을 바탕으로 시간대에 따른 feature를 추가하는 것은 도메인 지식 활용으로 취급합니다.
다만 말씀주신 것처럼 구체적인 외부 데이터를 merge하거나, 2023.03.03 23:59:59 이후 알 수 있는 정보를 활용하실 경우 
규정 위반에 해당하니 참고 부탁드립니다. 
감사합니다. 

열심히하겠습니다
2023.11.09 13:38

감사합니다~!