분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
제1회 신약개발 AI 경진대회
testset 사용에 대한 문의
모델 학습과 추론에서 평가 데이터셋 정보 활용(Data Leakage)시 수상 제외 <- 말의 의미가
testset input smiles도 사용하면 안된다는 의미인가요?
감사합니다
어떠한 상황에서도 test 데이터의 정보가 학습에 활용되면 안된다는 의미였군요.
안녕하세요, kerobro 님
규칙에 의하면 test 데이터는 알 수 없는 정보로,
해당 데이터에서 얻을 수 있는 정보가 모델 학습과 추론에서 사용되면 안 됩니다.
이는 알 수 없는 정보를 활용하여 모델링을 진행하는 것은 존재할 수 없는 일이기 때문입니다.
따라서 데이콘에서는 이를 data leakage로 간주하고 있습니다.
다만 data leakage에 대한 판단은 다소 복잡할 수 있기 때문에,
상세한 기법에 대해서 문의가 있을 경우 dacon@dacon.io로 문의 부탁드립니다.
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
삭제된 댓글입니다