분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
신용카드 사기 거래 탐지 AI 경진대회 월간 데이콘
클래스 나누는 기준값
Threshold값을기준으로 이상치여부를 판단하려는 모델을 구현중입니다.
train으로 학습한 모델을 통해 test데이터를 특정값을 예측한후 해당 테스트 데이터 예측값을 활용해 threshold를 결정을 한다면 데이터 leakeage에 해당하게 되나요??
그럼 같은 방식으로 val 데이터로 threshold 정하는 것은 leakage가 아닐까요??
Validation 데이터의 추론 결과로부터 Threshold를 도출하는 방법은 Data Leakage에 해당되지 않습니다.
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 박현우혀누님,
대회의 특성상, 채점을 위한 테스트셋이 제공이 되고 이에 따라 테스트셋이 몇개로 이루어져 있는지 알 수 있지만.
본래 Test 데이터셋은 '아예 볼 수도, 알 수도 없다' 라고 설정하여 진행해야 합니다.
따라서 모든 Test 데이터셋에 대한 모델의 결과들로부터 Threshold를 도출하는 것은 Data Leakage입니다.
감사합니다.