여행 상품 신청 여부 예측 AI 해커톤

알고리즘 | 정형 | 분류 | 여행 | Accuracy

  • moneyIcon 상금 : 인증서, 장학금, 스타벅스 기프티콘 등
  • 611명 마감

 

[Public : 1위, Private : 2위] 0.93522, CatBoost

2022.09.02 22:46 1,654 조회 language

운이 좋아 좋은 성적을 기록할 수 있었던 것 같습니다.
대회 특성상 복잡한 분석보다는 최대한 간결하고 쉽게 분석을 해보려고 했습니다.
부족한 점이 많지만 너그럽게 봐주시면 감사하겠습니다.
참여하신 분들 모두 고생하셨습니다 :)

코드
로그인이 필요합니다
0 / 1000
kisooofficial
2022.09.03 15:28

와.... KNN Imputer는 처음들어보네요

K_
2022.09.04 10:43

와 덕분에 많이 알아갑니다!

HYU_OSAC_LAB
2022.09.04 11:20

많이 배워갑니다.

은빈
2022.09.04 16:11

좋은 글이네요.

kisooofficial
2022.09.07 01:07

# 이상치들 상한값, 하한값으로 대체
def outlier(df):
    IQR = df.quantile(0.75) - df.quantile(0.25)
    line_down = df.quantile(0.25) - IQR*1.5
    line_up = df.quantile(0.75) + IQR*1.5

    df = df.clip(line_down, line_up)

    return df

total_data['DurationOfPitch'] = outlier(total_data['DurationOfPitch'])
total_data['NumberOfTrips'] = outlier(total_data['NumberOfTrips'])

여기서 test_data가 outlier를 스케일링하는 데 사용되었기 때문에 data leakage에 해당하는 것 같습니다.