데이스쿨! 가을맞이 특별할인
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
난임 환자 대상 임신 성공 여부 예측 AI 온라인 해커톤
이러한 행위가 Data Leakage에 위반되는지 질문드립니다.
안녕하세요. 이번 Dacon 경진대회 중 난임 환자 대상 임신 성공 여부 예측 AI 온라인 해커톤에 참여 중인 교육생입니다. 해커톤 규칙에 대해서 읽어 보았는데, 헷갈리는 부분이 몇개 있습니다.
감사합니다.
3번은 시도해도 되는지 궁금해서 몰랐는데 덕분에 알았네요 감사합니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요. 불열정그리고의지님.
문의주신 내용에 대한 답변입니다.
1) 결측치 처리 → Train 데이터의 통계를 이용하여 Test 데이터의 결측치를 채우는 것은 허용됩니다.
2) 파생변수 생성 → 같은 행(row) 내에서 여러 컬럼을 사용하는 연산은 Train/Test 구분 없이 허용됩니다. 단, 두 개 이상의 행을 함께 사용하는 연산(이동평균 등)은 허용되지 않습니다.
3) apply 메서드 사용 → 같은 행 내에서 독립적으로 처리되는 경우라면 Train, Test 데이터를 동시에 처리해도 허용됩니다. 단, Test 데이터 여러 행을 묶어 통계를 내거나 함께 처리하면 허용되지 않습니다.
4) 데이터 타입 변환 → Train, Test 데이터를 동시에 변환해도 문제 없습니다만 가급적 학습(Train), 추론(Test)에 대한 전처리는 분리하는 것이 안전합니다.
감사합니다.