분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[private 15th] bda 수료 예측 코드 공유
데이터 전처리 단계에서는 결측치가 80% 이상인 칼럼을 제거하고, 나머지 결측치는 변수 유형에 따라 처리했다. 수치형 변수는 중앙값으로, 범주형 변수는 공통된 문자 값으로 채워 넣어 데이터 손실을 최소화했다. 이후 범주형 변수는 학습 데이터와 테스트 데이터를 합쳐 변환기를 학습시킨 뒤 다시 나누는 방식으로 레이블 인코딩을 적용해 안정성을 확보했다.
모델은 LightGBM을 사용했다. 이 모델은 빠른 학습 속도와 높은 성능을 제공하며, 불균형 데이터에도 강하고 범주형 변수까지 효과적으로 다룰 수 있다는 장점이 있다.
학습 과정에서는 단순한 데이터 분할 대신 층화 K-fold 교차검증을 활용해 각 fold에서 클래스 비율이 유지되도록 했다. 예측 단계에서는 확률값을 단순히 0.5 기준으로 분류하지 않고, 다양한 임계값을 시도해 f1 점수가 가장 높은 지점을 선택했다. 이렇게 함으로써 평가 지표에 최적화된 분류 기준을 적용할 수 있었다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved