대구 교통사고 피해 예측 AI 경진대회

알고리즘 | 정형 | 회귀 | 교통 | RMSLE | 정성평가

  • moneyIcon 상금 : 1,000만원
  • 2,226명 마감

 

[public:0.42682/Private:0.42723]AutoML 및 Feature Engineering

2023.12.12 21:14 820 조회 language

안녕하세요
다들 대회 하시느라 고생 많으셨어요 ^&^

비록 Private 68등의 대단하지 못한 코드이지만, 많은 분들과 의견 나누고 싶어서 공유합니다 ㅎㅎ

코드를 작성하면서, meister1378, 비비드백, BrainAI_이희원 님의 코드 및 인사이트를 참고하였습니다!

전체적인 흐름은
1) 외부 데이터 활용:  보안등/ 주차장/ 어린이보호구역/ cctv 외부 데이터를 활용하여 '군', '구' 기준 groupby로  개수를 계산했으며, cctv의 경우 단속구분으로 나누어 groupby 하여 계산했습니다. ( countrywide 외부데이터는 사용하면 오히려 성능이 떨어저 제외했습니다.

2) 파생변수 추가
 시간 데이터로 아침/점심/저녁/새벽 변수
month변수를 기반으로 봄/여름/가을/겨울
출퇴근 시간을 기반으로 rush hour을 도출했습니다.

3) 모델 define
autoML을 사용하여, 'Random Forest', 'LightGBM', 'Xgboost', 'CatBoost','Neural Network','Extra Trees'이 다섯개의 모델을 진행했습니다.

아쉬운점은, 다른 외부데이터를 사용못한게 가장 아쉽네요ㅜㅜ

코드