분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
사용가능 데이터의 범위는 추론 시점 기준 최대 3개월인가요?
안녕하세요
BrainAI_뽀야쭈님 질문과 동일하지만 제가 잘 이해를 못하여 비슷한 내용 질문드립니다.
추론 시점 이전의 모든데이터가 아닌 추론시점기준 최대 3개월의 입력데이터만 활용하는 경우가 맞나요?
감사합니다.
학습 데이터는 2018년 ~ 2022년의 순 단위(10일)의 데이터가 주어지며,
평가 데이터는 식별화된 추론 시점 T가 2023년 ~ 2024년의 순 단위의 데이터가 주어집니다.
평가 데이터 추론은 추론 시점 T 기준으로 최대 3개월의 순 단위의 입력 데이터를 바탕으로 T+1순, T+2순, T+3순의 평균가격을 예측해야합니다.
"다만, 학습 데이터를 입력 데이터에 더 붙여서 활용하는 것은 허용됩니다."
말씀하신 이 부분이 가령 TEST_00이 2023년 4월~6월이라면,
Train데이터에 해당 부분만 이어 붙여서(2023년 4월~6월만) 훈련한 다음, 2023년 7월 상,중,하 순을 예측해도 된다는 것이 맞을까요?
위의 예시처럼 TEST_N의 T+1~T+3을 예측하기 위해 TEST_N에 주어진 T-8~T는 훈련데이터로 간주해 사용해도 되지만,
TEST_N이 아닌 TEST_A나 TEST_B를 가져와 훈련하거나, TEST_N의 T+1~T+3을 예측하는데 사용하는 것은 data leakage이므로 안된다는 것이
적절한 이해일까요?
문의 내용과 답변의 내용과 다르게 이해해주셨습니다.
'TEST_N의 T+1~T+3을 예측하기 위해 TEST_N에 주어진 T-8~T는 훈련데이터로 간주해 사용' 는 잘못되었습니다.
평가 데이터는 훈련될 수 없습니다.
위에서 말씀드린 내용은 '가령 TEST_00이 2023년 4월~6월'이라면, TRAIN 데이터의 2022년 1월~3월 데이터를 TEST_00 추론에 입력으로 활용해도 된다는 내용입니다.
댓글에 적어주신 '붙여서 사용한다'는 표현을 잘못 이해했던 것 같습니다. 규정에 적힌대로 TEST 데이터는 어떤 경우에서든 원래는 '볼 수 없는 것'으로 취급하는 것이 맞네요. 답변 감사드립니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
테스트 샘플 안에 있는 입력 데이터 자체가 3개월씩 구성되어있습니다.
이 이상을 활용하려는 경우에는 다른 테스트 샘플의 데이터를 끌어와야하지만, 이 경우에는 Data Leakage로 간주하고 있습니다.
다만, 학습 데이터를 추론을 위한 평가 입력 데이터에 더 붙여서 활용하는 것은 허용됩니다.
즉, 다른 테스트 샘플의 평가 기간이나 외부 데이터를 사용해, 추론 하려는 평가 데이터 시점 T ~ 이전 3개월 시점 이상의 2023-2024년 테스트 기간 데이터를 추가하는 것은 불가능합니다.