분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[R] Xgboost Baseline (LB - 0.71299)
안녕하세요!
데이터 분석가를 꿈꾸는 태엽장치 돌고래입니다 ^-^
제가 정형데이터가 나오면 거의 디폴트(?)로 사용하는 간단한 xgboost 코드입니다..!
데이터 전처리는 범주형 변수 원핫코딩만 진행하였고,
xgb_cv 함수로 cross validation을 통해 nrounds를 정하고 train data를 학습시킨 xgboost 모델입니다
파이썬보다는 R을 자주 사용하고 있는데 파이썬 코드는 많이 공유되고 있지만 R 코드가 많이 없어서 공유합니다!!
데이터마다 적절한 하이퍼 파라미터를 찾아야한다고 배웠는데,
초기값도 찾기가 어렵네요 ㅠㅠ
xgb.train에서 max_depth, subsample, colsample_bytree등의
하이퍼파라미터의 초기값을 잡는 기준이 있을까요?
R 베이스라인 공유 감사합니다!!!
답변이 늦었네요ㅠ
보통 함수의 초기값 그대로 돌려도 성능은 꽤 괜찮게 나오지만,,
저 같은 경우는 max_depth 초기값이 6이라서 4~8 정도 범위를 잡고 여러번 시도하는 편입니다!
max_depth가 커지면 과적합이 될 확률이 높기 때문에
subsample과 colsample_bytree의 값을 낮춰서 과적합을 제어한다고 알고 있습니다
둘다 초기값 1에서 0.8, 0.7 이런식으로 값을 줄여서 적절한 값을 찾습니다
과적합이 되지 않는 선에서 여러가지 시도를 하면 될 것 같습니다..!
R 화이팅
이분야에 신입입니다.
저도 R로 한번하고 싶어서 지원했는데 어디까지 진행이 될지 모르겠습니다.
내용을 보니 R이라서 반갑고 감사합니다.
내용 감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
R 유저 분들의 위한 배려 감사합니다.