스마트 창고 출고 지연 예측 AI 경진대회

추론 규칙 관련 문의

2026.04.02 09:32 1,357 조회

"각 시나리오는 약 6시간(25개 타임슬롯, 15분 간격) 동안의 창고 상태를 담고 있습니다."


추론할 때 각 시나리오를 하나의 시계열로 간주하여 25개의 test.csv 타임슬롯을 하나의 단위로 처리해 transformer와 같은 시계열 처리 모델에 입력하는 것이 가능한지, 아니면 같은 시나리오라고 해도 1 슬롯 데이터만 사용하여 각 row별로 독립적인 추론을 해야 하는 것인지 궁금합니다.

로그인이 필요합니다
0 / 1000
DACON.KMS
2026.04.02 12:18

안녕하세요, 좋은 질문 남겨주셔서 감사합니다.

추론 방식에 대한 별도 제한은 없습니다. 말씀하신 Transformer 계열 시퀀스 모델로 시나리오 단위 입력을 구성하시든, GBM 계열로 행 단위 독립 추론을 하시든 자유롭게 시도하셔도 됩니다. 최종적으로 sample_submission.csv 양식에 맞게 제출해 주시면 됩니다.

다만 시나리오 내 행들이 실제로 시간적 종속성을 갖는 시퀀스로 활용 가능한지, 그리고 그것이 예측 성능에 유의미한 기여를 하는지는 데이터를 직접 탐색해 보시면서 판단하시는 걸 추천드립니다. 그 과정 자체가 이번 대회에서 의미 있는 EDA 포인트가 될 수 있습니다.

좋은 결과 있으시길 바랍니다!

knowin_kyeong
2026.04.02 12:24

그러면 inference 시 같은 시나리오 내 25개 행의 결측치를 채울 때 인접한 (같은 시나리오 id를 가진) 행을 참고하여 결측치를 채우는 것은 data leakage인가요? 아니면 시나리오 단위 입력 내에서 채운 것이니 leakage가 아닌가요?

DACON.KMS
2026.04.02 13:36

추가 질문 남겨주셔서 감사합니다.

같은 시나리오 내 인접 행의 피처(feature) 값을 참조하여 결측치를 보간하는 것은 data leakage가 아닙니다. 하나의 시나리오는 특정 창고에서 관측된 연속 스냅샷이므로, 해당 시나리오 내 피처 값들은 모두 관측이 완료된 입력 데이터에 해당합니다. 이 범위 안에서의 전처리는 자유롭게 시도하셔도 됩니다.

다만 결측치를 어떤 방식으로 다루는 것이 예측 성능에 실제로 유리한지는, 직접 실험하면서 판단하시는 것을 권장드립니다.

좋은 결과 있으시길 바랍니다!

basslibrary
2026.04.04 20:46

다시 한번 문의 드립니다. "같은 시나리오 내 인접 행의 피처(feature) 값을 참조하여 결측치를 보간"이 데이터 Leakage가 아니라는 부분이,
타 시계열 대회와 다른것 같아 질문드립니다. 보통 시계열 예측의 경우, 이전 시간대 데이터를 참조하는 것은 가능하지만,
이후(미래) 시간대 데이터를 포함하면 데이터 리키지로 판단되는 줄 압니다.
이후 시간대를 포함한 한 슬롯(25개샘플)의 평균값으로 결측치를 처리하는 것은 이번 대회에서 데이터 리키지로 판단하지 않는다고 보면 되는 지요?

DACON.KMS
2026.04.08 10:26

안녕하세요. 답변이 늦어진 점 양해 부탁드립니다.

말씀하신 부분에 대해 답변드리면, 같은 시나리오 내 이후 시간대 행을 포함하여 평균으로 결측치를 보간하는 것은 본 대회에서 리키지로 판정하지 않습니다.

본 대회의 데이터는 하나의 시나리오가 처음부터 끝까지 모두 관측된 이후에 일괄적으로 제공되는 구조입니다. 즉, 한 시나리오의 25개 행은 해당 창고에서 시간 순서대로 수집된 연속 스냅샷이며, 참가자가 test.csv를 받는 시점은 해당 시나리오의 관측이 이미 모두 끝난 이후입니다. 따라서 특정 행을 예측할 때 같은 시나리오 내 이후 시점 행의 피처도 이미 같은 테이블에 함께 주어져 있는 상태이며, 이 범위 안에서의 전처리는 입력 데이터 내부의 가공으로 해석하고 있습니다.

말씀해 주신 대로, 이러한 구조는 rolling/walk-forward 방식으로 시점별 인과 제약을 실시간으로 강제하는 실제 현업 환경이나 일부 시계열 대회와는 결이 다른 것이 사실입니다. 엄밀한 인과 관점에서 보면 시나리오 내 이후 시점 스냅샷에는 현재 시점 기준으로 "미래 상태"에 해당하는 정보가 일부 포함되어 있으며, 본 대회에서는 이를 평가 단계에서 분리하지 않고 있습니다. 이는 CSV 제출 형식 대회의 특성상 test.csv 전체가 한 번에 입력으로 주어지는 구조적 측면과도 맞닿아 있는 부분이며, 본 대회가 시나리오 단위 배치 회귀 형태로 설계되어 있다는 점, 그리고 월간 데이콘이라는 성격상 참가자 분들이 EDA와 다양한 전처리·피처 엔지니어링을 자유롭게 시도해 볼 수 있도록 학습 지향적인 방향도 함께 고려하였기 때문입니다.

정리하면, 말씀하신 보간 방식은 본 대회 기준으로 리키지가 아니며 자유롭게 시도하셔도 됩니다. 다만 이것이 실제 예측 성능에 유리할지는 별개의 문제이므로, 직접 실험하면서 판단하시는 것을 권장드립니다.

좋은 결과 있으시길 바랍니다!

소신
2026.04.16 10:36

day_of_week 피쳐는 정확하게 어떤 것을 의미하는지 알수있나요?
시나리오 상의 요일로 가정하고 데이터셋은 시계열성이 없다고 판단한뒤 작업을 했었는데, 
"해당 창고에서 시간 순서대로 수집된 연속 스냅샷"이라는 표현에서 시계열성을 띄는 데이터일 수 있겠다는 가정을 하고 
다시 보니 해당 feature는 무엇을 의미하는지 의문이 들었습니다.

DACON.KMS
2026.04.16 11:04

개별 피처의 구체적인 의미나 생성 방식에 대해서는 대회 형평성을 위해 자세한 안내가 어려운 점 양해 부탁드립니다. 토크 게시판을 확인하신 분과 그렇지 않은 분 사이에 정보 격차가 생기지 않도록, 피처 해석이나 분석에 해당하는 문의에는 상세 답변을 드리지 않고 있습니다.

각 피처의 특성과 활용 가치를 탐색하고 판단하는 과정 자체가 이번 대회의 주요 과제 중 하나로 설계되어 있으니, 직접 데이터를 살펴보시며 판단해보시기를 권장드립니다.

basslibrary
2026.04.04 20:46

삭제된 댓글입니다

피어님
2026.04.07 15:54

삭제된 댓글입니다