데이스쿨! 가을맞이 특별할인
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
사전 샘플링 된 데이터 30% 어떤 분포일까
train 데이터로 성능 체크를 할 시, 분명 valid의 rmse는 더 낮음에도 막상 test데이터를 predict하고, public점수를 보면 좋지 않기에 쓰게 됨
사전 샘플링 된 30%
샘플링을 어떻게 했냐에 따라 public과 private 점수 차가 완전히 달라질 수 있음 (균일하게 뽑았는지, 편향되게 뽑았는지)
우선 public rmse 0.91 기준 train 가격 분포와 같이 그림을 그려 봄 (다른 점수도 그렇고 더 성능이 좋게 나오신 0.8대 분들과 그림이 상이할 수 있음)
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved