분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
인구 데이터 기반 소득 예측 AI 해커톤
0.43의 상관성을 보이는 피쳐를 생성해보았습니다.
혼자 살면 소득이 높다고 가정을 해보았습니다.
martial.status 에서 여러 클래스를 Alone, Not Alone으로 구분해서 상관계수를 확인해보았더니 0.43의 값을 보이군요
참고하시길!
```
train['marital.status'] = train['marital.status'].replace(['Never-married','Divorced','Widowed','Separated'], 'alone')
test['marital.status'] = test['marital.status'].replace(['Never-married','Divorced','Widowed','Separated'], 'alone')
train['marital.status'] = train['marital.status'].replace(['Married-civ-spouse','Married-spouse-absent','Married-AF-spouse'], 'not alone')
test['marital.status'] = test['marital.status'].replace(['Married-civ-spouse','Married-spouse-absent','Married-AF-spouse'], 'not alone')
train['marital.status']=train['marital.status'].map({'not alone':1,'alone':0})
test['marital.status']=test['marital.status'].map({'not alone':1,'alone':0})
```
이외에도
total_capital = capital_gain - capital_loss, target값과 total_capital은 0.22의 관련성을 가지는군요.
capital gain & loss를 주식, 채권, 펀드와 같은 자본 자산을 매각했을 때의 이익과 손해로만 보았습니다.
상관성이 크다면 꼭 합치는 게 정답이 아니자만, GBDT 모델을 고려해봤을 때 유의미한 컬럼이 아니여도 해결해 줄 것이라 판단해서 만들어보았습니다.
해당 데이터셋의 capital의 범위와 정의를 알 수 있다면 논리적인 특성 공학이 되지 않을까 생각해봅니다.
확인해보니 capital_gain이 target과 상관계수 0.22를 가지네요
capital_loss가 상쇄되는것 같아요
그렇군요, 아직 부족한 부분이 있네요.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저도 total_capital에 대해 생각해봤는데
합치지 않는게 좋지 않을까요?
예를들어 ) 주식 수익 - 방 월세 이런 개념이 될 것 같아서
그래도 상관성이 크다면 합치는게 좋을까요?