심장 질환 예측 AI 해커톤

알고리즘 | 정형 | 분류 | 질병 | Macro f1 score

  • moneyIcon Prize : 참가시 최소 50 XP, 특별상 데이콘 후드
  • 586명 마감

 

[입문자]코드 공유합니다

2021.12.27 21:04 2,445 Views language

입문자입니다. 가벼운 마음으로 봐주시고, 틀린부분이 있다면 한 수 가르쳐 주십시오.
ㅇ 전처리가 가장 중요하다고 판단해서 info()랑 describe() 이용하여 데이터셋의 형태를 살펴봤습니다. 
ㅇ 151개의 열을 가지고 있고, 결측치가 없으며, 범주형 데이터도 없고, 상관관계를 보았을때 제거할만한 변수들도 보이지 않았습니다.
ㅇ unique()함수를 이용하여 숨어있는 다른 값들이 있는지 살펴봤고, 그런 값 또한 없어서 무난하게 트리기반의 앙상블 모델인 XGBClassifier()를 이용하여 분석하였습니다.
ㅇ 워낙 데이터셋 기본적인 정제상태가 좋아서 전처리 없이 f1_score은 0.85나왔습니다. 

* 개인적으로 이런 잘 정제되어 보이는 데이터셋에서 할 수 있는 전처리에 대해서 배우고 싶습니다.

Code