클래스 나누는 기준값

신용카드 사기 거래 탐지 AI 경진대회 월간 데이콘

클래스 나누는 기준값

박현우혀누

2022.07.14 18:16 3,792 조회

Threshold값을기준으로 이상치여부를 판단하려는 모델을 구현중입니다.

train으로 학습한 모델을 통해 test데이터를 특정값을 예측한후 해당 테스트 데이터 예측값을 활용해 threshold를 결정을 한다면 데이터 leakeage에 해당하게 되나요??

댓글 3개

로그인이 필요합니다

comment

0 / 1000

DACONIO

2022.07.14 18:47

안녕하세요 박현우혀누님,
대회의 특성상, 채점을 위한 테스트셋이 제공이 되고 이에 따라 테스트셋이 몇개로 이루어져 있는지 알 수 있지만.
본래 Test 데이터셋은 '아예 볼 수도, 알 수도 없다' 라고 설정하여 진행해야 합니다.
따라서 모든 Test 데이터셋에 대한 모델의 결과들로부터 Threshold를 도출하는 것은 Data Leakage입니다.

감사합니다.

박현우혀누

2022.07.14 19:45

그럼 같은 방식으로 val 데이터로 threshold 정하는 것은 leakage가 아닐까요??

DACONIO

2022.07.14 20:14

Validation 데이터의 추론 결과로부터 Threshold를 도출하는 방법은 Data Leakage에 해당되지 않습니다.
감사합니다.

📣 댓글 작성 창의 위치가 댓글 리스트 상단으로 이동했습니다!