분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private 3.08359 - CatBoost + XGBoost +LGBM Ensemble
공동작성자
안녕하세요 팀 게더타운주민들 입니다.
저희는 최대한 파생 변수 생성에 주력했고 일정 수준 성능 개선이 없어 optuna를 활용한 파라미터 튜닝을 병행했습니다.
모델은 CatBoost, XGBoost, LGBM을 사용했고 가중치를 달리하여 앙상블한 결과를 정수형태로 변환하여 제출했습니다.
대회에 참여한 모든 분들 수고 많으셨습니다!
감사합니다:)
+ 추가)
사용한 데이터의 출처 URL은 아래와 같습니다.
각 URL에서 데이터목록에 제주도를 입력하여 제주도 데이터를 다운로드 받아 진행했습니다.
- 어린이보호구역 : https://www.data.go.kr/data/15012891/standard.do
- 무인교통단속카메라 : https://www.data.go.kr/data/15028200/standard.do
- 전국초중등학교기본정보 : https://www.data.go.kr/data/15107734/standard.do
- 제주도 주차장 : https://www.data.go.kr/data/15012896/standard.do
감사합니다!
올려주신 코드 참고하여 열심히 공부해보겠습니다.
공유 감사합니다. 고생 많으셨습니다~!!
감사합니다!
다양한 변수 생성에 중점을 둔 부분이 굉장히 배울 점이 많네요
혹시 아래와 같은 변수도 생성 및 전처리 후 결과를 확인해보셨는지 궁금합니다.
1.도로별, 시간대별, 요일별 box plot시 확인되는 이상치 값을 최소값이나 최대값으로 변경 후 모델 예측
ㄴ (LGMB 파라미터 설정 없이도 이전보다 좋은 결과가 나옴)
2. 도로별, 시간대별, 요일별 box plot시 확인되는 1Q와 3Q의 값을 새로운 변수로 만든 후 모델 예측
ㄴ(DATA data leakage에 해당할까요?)
좋게 봐주셔서 감사합니다 ㅎㅎㅎ
1. 저희도 이상치를 찾으려고 시도는 했는데 성능 향상이 미미해서 이상치 처리는 따로 진행하지 못했습니다.
2. 도로 + 시간을 합성한 key를 생성해서 해당 값으로 groupby하여 target 통계량을 사용하려고 했으나 과적합 우려 때문에 말씀하신 방식의 변수는 생성하지 못했습니다. Train 데이터만을 사용한다면 Leakage에는 문제되지 않을 것 같습니다 ㅎㅎㅎㅎ
좋은 코드 공유 감사합니다. 혹시 위 모델별 가중치는 어떤식으로 주신걸까요?
올려주신 코드 덕분에 열심히 공부하고 있습니다. 올려주신 링크중에 제주 초중등학교 csv파일에 위도와 경도가 존재하지 않는데, 혹시 사용하신 csv파일 아직 가지고 계신다면 공유 부탁드려도 될까요?
제가 공부할겸 코드 분석을 하고 있는데 혹시 제주공항까지의 거리와 한라산까지 거리 컬럼을 왜 생성했는지 여쭤봐도될까요..?
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
상위권에 계셔서 어떻게 하셨는지 궁금했는데 공유 감사합니다.
수고하셨습니다.