월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회

알고리즘 | 정형 | 분류 | 금융 | LogLoss

상금 100만 원
3,963명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[R] Xgboost Baseline (LB - 0.71299)

돌고래

2021.04.06 16:36 13,327 조회 language

안녕하세요!

데이터 분석가를 꿈꾸는 태엽장치 돌고래입니다 ^-^

제가 정형데이터가 나오면 거의 디폴트(?)로 사용하는 간단한 xgboost 코드입니다..!

데이터 전처리는 범주형 변수 원핫코딩만 진행하였고,
xgb_cv 함수로 cross validation을 통해 nrounds를 정하고 train data를 학습시킨 xgboost 모델입니다

파이썬보다는 R을 자주 사용하고 있는데 파이썬 코드는 많이 공유되고 있지만 R 코드가 많이 없어서 공유합니다!!

코드

댓글 5개

로그인이 필요합니다

comment

0 / 1000

DACON.edu

2021.04.06 16:59

R 유저 분들의 위한 배려 감사합니다.

신입생

2021.04.06 18:32

데이터마다 적절한 하이퍼 파라미터를 찾아야한다고 배웠는데,
초기값도 찾기가 어렵네요 ㅠㅠ
xgb.train에서 max_depth, subsample, colsample_bytree등의
하이퍼파라미터의 초기값을 잡는 기준이 있을까요?

R 베이스라인 공유 감사합니다!!!

돌고래

2021.04.07 13:58

답변이 늦었네요ㅠ

보통 함수의 초기값 그대로 돌려도 성능은 꽤 괜찮게 나오지만,,
저 같은 경우는 max_depth 초기값이 6이라서 4~8 정도 범위를 잡고 여러번 시도하는 편입니다!
max_depth가 커지면 과적합이 될 확률이 높기 때문에
subsample과 colsample_bytree의 값을 낮춰서 과적합을 제어한다고 알고 있습니다
둘다 초기값 1에서 0.8, 0.7 이런식으로 값을 줄여서 적절한 값을 찾습니다

과적합이 되지 않는 선에서 여러가지 시도를 하면 될 것 같습니다..!