월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회

알고리즘 | 정형 | 분류 | 금융 | LogLoss

  • moneyIcon 상금 : 100만원
  • 3,757명 마감

 

[R] Xgboost Baseline (LB - 0.71299)

2021.04.06 16:36 10,440 조회 language

안녕하세요!

데이터 분석가를 꿈꾸는 태엽장치 돌고래입니다 ^-^

제가 정형데이터가 나오면 거의 디폴트(?)로 사용하는 간단한 xgboost 코드입니다..!

데이터 전처리는 범주형 변수 원핫코딩만 진행하였고, 
xgb_cv 함수로 cross validation을 통해 nrounds를 정하고 train data를 학습시킨 xgboost 모델입니다

파이썬보다는 R을 자주 사용하고 있는데 파이썬 코드는 많이 공유되고 있지만 R 코드가 많이 없어서 공유합니다!!

코드
로그인이 필요합니다
0 / 1000
DACON.edu
2021.04.06 16:59

R 유저 분들의 위한 배려 감사합니다.

신입생
2021.04.06 18:32

데이터마다 적절한 하이퍼 파라미터를 찾아야한다고 배웠는데,
초기값도 찾기가 어렵네요 ㅠㅠ
xgb.train에서 max_depth, subsample, colsample_bytree등의
 하이퍼파라미터의 초기값을 잡는 기준이 있을까요?

R 베이스라인 공유 감사합니다!!!

돌고래
2021.04.07 13:58

답변이 늦었네요ㅠ

보통 함수의 초기값 그대로 돌려도 성능은 꽤 괜찮게 나오지만,,
저 같은 경우는 max_depth 초기값이 6이라서 4~8 정도 범위를 잡고 여러번 시도하는 편입니다!
max_depth가 커지면 과적합이 될 확률이 높기 때문에 
subsample과 colsample_bytree의 값을 낮춰서 과적합을 제어한다고 알고 있습니다
둘다 초기값 1에서 0.8, 0.7 이런식으로 값을 줄여서 적절한 값을 찾습니다

과적합이 되지 않는 선에서 여러가지 시도를 하면 될 것 같습니다..! 

DACON.Dobby
2021.04.07 14:20

R 화이팅

korever
2021.04.08 14:28

이분야에 신입입니다.
저도 R로 한번하고 싶어서 지원했는데 어디까지 진행이 될지 모르겠습니다.
내용을 보니 R이라서 반갑고 감사합니다.
내용 감사합니다.