분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[입문자]코드 공유합니다
입문자입니다. 가벼운 마음으로 봐주시고, 틀린부분이 있다면 한 수 가르쳐 주십시오.
ㅇ 전처리가 가장 중요하다고 판단해서 info()랑 describe() 이용하여 데이터셋의 형태를 살펴봤습니다.
ㅇ 151개의 열을 가지고 있고, 결측치가 없으며, 범주형 데이터도 없고, 상관관계를 보았을때 제거할만한 변수들도 보이지 않았습니다.
ㅇ unique()함수를 이용하여 숨어있는 다른 값들이 있는지 살펴봤고, 그런 값 또한 없어서 무난하게 트리기반의 앙상블 모델인 XGBClassifier()를 이용하여 분석하였습니다.
ㅇ 워낙 데이터셋 기본적인 정제상태가 좋아서 전처리 없이 f1_score은 0.85나왔습니다.
* 개인적으로 이런 잘 정제되어 보이는 데이터셋에서 할 수 있는 전처리에 대해서 배우고 싶습니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved