분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
제주 특산물 가격 예측 AI 경진대회
Data Leakage 관련 문의
안녕하세요. Data Leakage관련해서 문의 남깁니다.
1) 제공된 데이터를 확인해보면 trade 데이터가 존재하는데 test에는 2023-03에 대한 trade정보가 존재하지 않습니다.
trade데이터를 이용해 예측을 진행하고 싶은데 임의로 찾은 2023-03 trade정보를 test데이터에 추가하여 예측을 진행해도 되나요?
2) 만약 임의로 찾은 데이터를 test 데이터셋에 추가할 수 없다면 저희가 따로 예측한 trade값을 test 데이터에 추가해서 price값을 예측해도 되나요?
3) trade 데이터 중 "순무"의 경우 2019~2023 전체가 아닌 일부만 존재합니다. 해당 경우 임의로 찾은 trade 정보를 추가해 학습을 진행해도 괜찮을까요?
안녕하세요, hhsh1121 님
본 대회의 규칙은 외부데이터 사용금지이며,
예측 시점은 2023.03.03 23:59:59로 설정되어 있습니다.
3월 시점의 international trade 정보는 예측 시점에서는 존재하지 않기에 제공하지 않은 것입니다.
따라서 말씀주신 방법들은 본 대회 규칙에 어긋나는 점 참고 부탁드립니다.
감사합니다.
외부 데이터를 사용하지 않고
주어진 international trade 파일을 통해 2023-03의 trade를 예측하는 코드를 만들어 그 예측 값을 test 데이터에 추가하는 것도 규칙위반인가요?
안녕하세요, 김땡땡그랑 님
해당 방법은 추론값을 추론을 위해 사용하는 것으로 규칙 위반 소지가 없습니다.
사용하셔도 무방합니다.
감사합니다.
안녕하세요.
저도 Data leakage에 대한 질문을 하나 드려도 될까요?
처음으로 대회에 참여하는 것이라 미숙해서 data leakage를 잘 몰라 여쭤봅니다.
코로나 정보를 이용하는 것은 data leakage에 해당이 될까요?
대회의 데이터에는 없어서 사용하지 않는 것이 맞다고 생각되나,
2023년 3월 전에 알 수 있는 내용으로 코로나 확진자 수와 같은 구체적인 정보를 넣는 것이 아니라
코로나가 심했던 시절, 심하지 않았던 시절을 구분한 데이터를 넣어주는 것도 규칙에 어긋나는지 여쭤보고 싶습니다!
안녕하세요, 열심히하겠습니다 님
개인적 경험을 바탕으로 시간대에 따른 feature를 추가하는 것은 도메인 지식 활용으로 취급합니다.
다만 말씀주신 것처럼 구체적인 외부 데이터를 merge하거나, 2023.03.03 23:59:59 이후 알 수 있는 정보를 활용하실 경우
규정 위반에 해당하니 참고 부탁드립니다.
감사합니다.
감사합니다~!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
외부에서 찾은 데이터를 넣는 것은 대회 규칙에 어긋납니다.
저는 linear interpolation을 사용해서 2023-03 trade 데이터를 보간했는데, 이 방법을 사용하시는 것을 추천드립니다.
만약, 예측한 값을 기준으로 추론을 한다면 RMSE가 더 증가할 수 있고, Private ranking이 떨어질 수 있습니다. 사용할 수는 있지만, 딱히 추천은 드리지 않습니다.