분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
catboost + CV 5Fold + threshold 변경 (LB: 0.7)
안녕하세요 국경원 요원입니다.
범주형 변수에 강력한 성능을 보여주는 catboost를 이용하여 코드를 작성해 봤습니다.
구글 코랩에서 작성하였고, GPU를 이용하여 학습 했습니다.
최종 예측 파일 threshold값을 조정해서 재현율을 끌어올려 LB 점수에서 이득을 봤습니다. 참고가 되었으면 좋겠습니다.
좋은 글 감사합니다!
당신은 빛과 같은 존재인가요?
감사합니다,,
Catboost 사용해보고 싶었는데 참고가 되었어요 감사합니다
감사합니다!
혹시 threshold를 0.5가아니라 0.4로 잡으신 이유가있으실까요??
안녕하세요~~ 제가 제출한 모델에서는 threshold를 낮추면서 정밀도에서 손해보는 점수에 비해 재현율에서 얻는 점수 수치의 이득이 더 크다보니 threshold 값을 조절하면서 제출하고 있습니다~~
아하 여러번 시도를 통해 알아내는 것이군요. 감사합니다!
혹시 세부변수를 갖고있는 d, h, l 변수에서, 어떤 변수들을 제거하신건가요? 그니까 d의 경우 d_d, d_s, d_m, d_l 4개의 세부 변수가 있는데 4개를 다 쓰신 것 같진 않습니다.
안녕하세요~ 대회 초반에 공유했던 코드이다 보니 주최측에서 데이터를 재배포 되기전에 기준으로 작성되어있습니다.
아 재배포됐었군요..! 감사합니다~!
혹시 cat_features = x_train.columns[x_train.nunique() > 2].tolist() 에서 왜 2보다 크게 설정하셨는지 알 수 있을까요?
안녕하세요 ~ 전처리과정에서 보시면 컬럼의 nunique값이 2인경우의 값이 0 or 1로 처리 되어있기 때문에 catboost의 인코딩을 사용할 필요없어서 저렇게 했습니다~~
좋은 정보네요 감사합니다
선생님 4등 축하드립니다! 시간나시면 최종 모델도 공유해주시면 감사하겠습니다! 축하드려용
오우~~ 감사합니다~
감사합니다. 코드 리뷰 하면서 공부하고 있는 주니어입니다.
혹시 회원 속성과 콘텐츠 속성의 동일한 코드 여부에 대한 cols_equi 리스트에서
person_prefer_d_2_attribute_d_s" , "contents_attribute_d_attribute_d_s"로
prefer_d_1이 아닌 d_2부터 시작한 이유가 있을까요?
안녕하세요~~ 데이터에 1번 선호에 대한 match_yn 변수들이 이미 있기 때문에 저렇게 했던거 같습니다~~
좋은 글 공유해주셔서 감사합니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
감사합니다