분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Public : 1위, Private : 2위] 0.93522, CatBoost
운이 좋아 좋은 성적을 기록할 수 있었던 것 같습니다.
대회 특성상 복잡한 분석보다는 최대한 간결하고 쉽게 분석을 해보려고 했습니다.
부족한 점이 많지만 너그럽게 봐주시면 감사하겠습니다.
참여하신 분들 모두 고생하셨습니다 :)
와 덕분에 많이 알아갑니다!
많이 배워갑니다.
좋은 글이네요.
# 이상치들 상한값, 하한값으로 대체
def outlier(df):
IQR = df.quantile(0.75) - df.quantile(0.25)
line_down = df.quantile(0.25) - IQR*1.5
line_up = df.quantile(0.75) + IQR*1.5
df = df.clip(line_down, line_up)
return df
total_data['DurationOfPitch'] = outlier(total_data['DurationOfPitch'])
total_data['NumberOfTrips'] = outlier(total_data['NumberOfTrips'])
여기서 test_data가 outlier를 스케일링하는 데 사용되었기 때문에 data leakage에 해당하는 것 같습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
와.... KNN Imputer는 처음들어보네요