커뮤니티 대회 교육

제주도 도로 교통량 예측 AI 경진대회

Private 3.08359 - CatBoost + XGBoost +LGBM Ensemble

공동작성자

stroke
2022.11.14 22:53 809 조회 language

안녕하세요 팀 게더타운주민들 입니다.

저희는 최대한 파생 변수 생성에 주력했고 일정 수준 성능 개선이 없어 optuna를 활용한 파라미터 튜닝을 병행했습니다.
모델은 CatBoost, XGBoost, LGBM을 사용했고 가중치를 달리하여 앙상블한 결과를 정수형태로 변환하여 제출했습니다.

대회에 참여한 모든 분들 수고 많으셨습니다!

감사합니다:)

+ 추가)
사용한 데이터의 출처 URL은 아래와 같습니다.
각 URL에서 데이터목록에 제주도를 입력하여 제주도 데이터를 다운로드 받아 진행했습니다.
- 어린이보호구역 : https://www.data.go.kr/data/15012891/standard.do
- 무인교통단속카메라 : https://www.data.go.kr/data/15028200/standard.do
- 전국초중등학교기본정보 : https://www.data.go.kr/data/15107734/standard.do
- 제주도 주차장 : https://www.data.go.kr/data/15012896/standard.do

PDF
코드
MartinChoi
2022.11.14 22:57

상위권에 계셔서 어떻게 하셨는지 궁금했는데 공유 감사합니다.
수고하셨습니다.

기세현
2022.11.18 10:13

감사합니다!

지콩이
2022.11.15 15:24

올려주신 코드 참고하여 열심히 공부해보겠습니다.
공유 감사합니다. 고생 많으셨습니다~!!

기세현
2022.11.18 10:14

감사합니다!

닥스훈트
2022.11.15 15:57

다양한 변수 생성에 중점을 둔 부분이 굉장히 배울 점이 많네요

혹시 아래와 같은 변수도 생성 및 전처리 후 결과를 확인해보셨는지 궁금합니다.

1.도로별, 시간대별, 요일별 box plot시 확인되는 이상치 값을 최소값이나 최대값으로 변경 후 모델 예측
 ㄴ (LGMB 파라미터 설정 없이도 이전보다 좋은 결과가 나옴) 
2. 도로별, 시간대별, 요일별 box plot시 확인되는 1Q와 3Q의 값을 새로운 변수로 만든 후 모델 예측 
ㄴ(DATA data leakage에 해당할까요?)

기세현
2022.11.18 10:18

좋게 봐주셔서 감사합니다 ㅎㅎㅎ

1. 저희도 이상치를 찾으려고 시도는 했는데 성능 향상이 미미해서 이상치 처리는 따로 진행하지 못했습니다. 
2. 도로 + 시간을 합성한 key를 생성해서 해당 값으로 groupby하여 target 통계량을 사용하려고 했으나 과적합 우려 때문에 말씀하신 방식의 변수는 생성하지 못했습니다. Train 데이터만을 사용한다면 Leakage에는 문제되지 않을 것 같습니다 ㅎㅎㅎㅎ

로그인이 필요합니다
0 / 1000