분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[public:0.42682/Private:0.42723]AutoML 및 Feature Engineering
안녕하세요
다들 대회 하시느라 고생 많으셨어요 ^&^
비록 Private 68등의 대단하지 못한 코드이지만, 많은 분들과 의견 나누고 싶어서 공유합니다 ㅎㅎ
코드를 작성하면서, meister1378, 비비드백, BrainAI_이희원 님의 코드 및 인사이트를 참고하였습니다!
전체적인 흐름은
1) 외부 데이터 활용: 보안등/ 주차장/ 어린이보호구역/ cctv 외부 데이터를 활용하여 '군', '구' 기준 groupby로 개수를 계산했으며, cctv의 경우 단속구분으로 나누어 groupby 하여 계산했습니다. ( countrywide 외부데이터는 사용하면 오히려 성능이 떨어저 제외했습니다.
2) 파생변수 추가
시간 데이터로 아침/점심/저녁/새벽 변수
month변수를 기반으로 봄/여름/가을/겨울
출퇴근 시간을 기반으로 rush hour을 도출했습니다.
3) 모델 define
autoML을 사용하여, 'Random Forest', 'LightGBM', 'Xgboost', 'CatBoost','Neural Network','Extra Trees'이 다섯개의 모델을 진행했습니다.
아쉬운점은, 다른 외부데이터를 사용못한게 가장 아쉽네요ㅜㅜ
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved