웹 로그 기반 조회수 예측 해커톤

알고리즘 | 정형 | 회귀 | 웹 로그 | RMSE

 

XGBRegressor (EDA to Prediction) (public: 3.11771)

2024.02.21 00:07 2,134 조회 language

데이터에 대한 EDA, Feature Engineering, Modeling까지 진행한 코드입니다.
나름대로 EDA를 한 결과를 토대로 Feature Engineering을 진행하였고, 
그 feature를 이용하여 XGBRegressor를 이용하여 최종 예측을 진행하였습니다.
부족한 코드와 실력이지만, 여러 실력자 분들의 코멘트를 받고 공부하고자 코드 업로드 합니다.
많은 조언 부탁드립니다!!

코드
로그인이 필요합니다
0 / 1000
당근양파
2024.02.21 11:01

감사합니다 !! 꼼곰하게 설명해주셔서 입문자인데 덕분에 많이 배우고 갑니다 ㅜㅜ

bonecar
2024.02.21 11:56

저도 초보자라 많이 부족한데 좋게 봐주셔서 감사합니다 :) 같이 화이팅하시죠!! ㅎ

Sorndus
2024.02.27 18:04

그래서 결국 결측치는 어떻게 처리하신 건가요? 베이스라인 해설대로 최빈값으로 대체했나요 아니면 결측값 자체를 하나의 범주로 생각하고 0이나 다른 이름으로 채우셨나요?

bonecar
2024.02.28 12:42

결측치가 있는 feature가 keyword , referral_path인데,  각각이 특정 경우에 (일반적으로) 설정된다는 설명을 기반으로 결측치를 하나의 범주로 생각하고 처리했습니다. 혹시 더 좋은 방법이 있으시면 소개 부탁드리겠습니다!! 감사합니다
- keyword 트래픽 소스의 키워드, 일반적으로 traffic_medium이 organic, cpc인 경우에 설정
  :  traffic_medium이 organic, cpc인 경우를 1, 결측치를 0으로 처리
- referral_path traffic_medium이 referral인 경우 설정되는 경로
 : traffic_medium이 referral인 경우를 1, 결측치를 0으로 처리