DASCHOOL! Fall Special Discount
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
난임 환자 대상 임신 성공 여부 예측 AI 온라인 해커톤
이러한 행위가 Data Leakage에 위반되는지 질문드립니다.
안녕하세요. 이번 Dacon 경진대회 중 난임 환자 대상 임신 성공 여부 예측 AI 온라인 해커톤에 참여 중인 교육생입니다. 해커톤 규칙에 대해서 읽어 보았는데, 헷갈리는 부분이 몇개 있습니다.
감사합니다.
3번은 시도해도 되는지 궁금해서 몰랐는데 덕분에 알았네요 감사합니다!
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요. 불열정그리고의지님.
문의주신 내용에 대한 답변입니다.
1) 결측치 처리 → Train 데이터의 통계를 이용하여 Test 데이터의 결측치를 채우는 것은 허용됩니다.
2) 파생변수 생성 → 같은 행(row) 내에서 여러 컬럼을 사용하는 연산은 Train/Test 구분 없이 허용됩니다. 단, 두 개 이상의 행을 함께 사용하는 연산(이동평균 등)은 허용되지 않습니다.
3) apply 메서드 사용 → 같은 행 내에서 독립적으로 처리되는 경우라면 Train, Test 데이터를 동시에 처리해도 허용됩니다. 단, Test 데이터 여러 행을 묶어 통계를 내거나 함께 처리하면 허용되지 않습니다.
4) 데이터 타입 변환 → Train, Test 데이터를 동시에 변환해도 문제 없습니다만 가급적 학습(Train), 추론(Test)에 대한 전처리는 분리하는 것이 안전합니다.
감사합니다.