신용카드 사기 거래 탐지 AI 경진대회 월간 데이콘

클래스 나누는 기준값

2022.07.14 18:16 1,876 조회

Threshold값을기준으로 이상치여부를 판단하려는 모델을 구현중입니다.

train으로 학습한 모델을 통해 test데이터를 특정값을 예측한후 해당 테스트 데이터 예측값을 활용해 threshold를 결정을 한다면 데이터 leakeage에 해당하게 되나요??

로그인이 필요합니다
0 / 1000
DACONIO
2022.07.14 18:47

안녕하세요 박현우혀누님,
대회의 특성상, 채점을 위한 테스트셋이 제공이 되고 이에 따라 테스트셋이 몇개로 이루어져 있는지 알 수 있지만.
본래 Test 데이터셋은 '아예 볼 수도, 알 수도 없다' 라고 설정하여 진행해야 합니다.
따라서 모든 Test 데이터셋에 대한 모델의 결과들로부터 Threshold를 도출하는 것은 Data Leakage입니다.

감사합니다.

박현우혀누
2022.07.14 19:45

그럼 같은 방식으로 val 데이터로 threshold 정하는 것은 leakage가 아닐까요??

DACONIO
2022.07.14 20:14

Validation 데이터의 추론 결과로부터 Threshold를 도출하는 방법은 Data Leakage에 해당되지 않습니다.
감사합니다.