DASCHOOL Heart Disease Prediction AI Hackathon

Algorithm | Structured | Classification | Disease | Macro f1 score

참가시 최소 50 XP, 특별상 데이콘 후드
604 Users Completed

Practice

Overview Data Code (share) Talk Leaderboard

Submission

[입문자]코드 공유합니다

Gray_star

2021.12.27 21:04 4,678 Views language

입문자입니다. 가벼운 마음으로 봐주시고, 틀린부분이 있다면 한 수 가르쳐 주십시오.
ㅇ 전처리가 가장 중요하다고 판단해서 info()랑 describe() 이용하여 데이터셋의 형태를 살펴봤습니다.
ㅇ 151개의 열을 가지고 있고, 결측치가 없으며, 범주형 데이터도 없고, 상관관계를 보았을때 제거할만한 변수들도 보이지 않았습니다.
ㅇ unique()함수를 이용하여 숨어있는 다른 값들이 있는지 살펴봤고, 그런 값 또한 없어서 무난하게 트리기반의 앙상블 모델인 XGBClassifier()를 이용하여 분석하였습니다.
ㅇ 워낙 데이터셋 기본적인 정제상태가 좋아서 전처리 없이 f1_score은 0.85나왔습니다.

* 개인적으로 이런 잘 정제되어 보이는 데이터셋에서 할 수 있는 전처리에 대해서 배우고 싶습니다.

Code