분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
인구 데이터 기반 소득 예측 AI 해커톤
0.43의 상관성을 보이는 피쳐를 생성해보았습니다.
혼자 살면 소득이 높다고 가정을 해보았습니다.
martial.status 에서 여러 클래스를 Alone, Not Alone으로 구분해서 상관계수를 확인해보았더니 0.43의 값을 보이군요
참고하시길!
```
train['marital.status'] = train['marital.status'].replace(['Never-married','Divorced','Widowed','Separated'], 'alone')
test['marital.status'] = test['marital.status'].replace(['Never-married','Divorced','Widowed','Separated'], 'alone')
train['marital.status'] = train['marital.status'].replace(['Married-civ-spouse','Married-spouse-absent','Married-AF-spouse'], 'not alone')
test['marital.status'] = test['marital.status'].replace(['Married-civ-spouse','Married-spouse-absent','Married-AF-spouse'], 'not alone')
train['marital.status']=train['marital.status'].map({'not alone':1,'alone':0})
test['marital.status']=test['marital.status'].map({'not alone':1,'alone':0})
```
이외에도
total_capital = capital_gain - capital_loss, target값과 total_capital은 0.22의 관련성을 가지는군요.
capital gain & loss를 주식, 채권, 펀드와 같은 자본 자산을 매각했을 때의 이익과 손해로만 보았습니다.
상관성이 크다면 꼭 합치는 게 정답이 아니자만, GBDT 모델을 고려해봤을 때 유의미한 컬럼이 아니여도 해결해 줄 것이라 판단해서 만들어보았습니다.
해당 데이터셋의 capital의 범위와 정의를 알 수 있다면 논리적인 특성 공학이 되지 않을까 생각해봅니다.
확인해보니 capital_gain이 target과 상관계수 0.22를 가지네요
capital_loss가 상쇄되는것 같아요
그렇군요, 아직 부족한 부분이 있네요.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저도 total_capital에 대해 생각해봤는데
합치지 않는게 좋지 않을까요?
예를들어 ) 주식 수익 - 방 월세 이런 개념이 될 것 같아서
그래도 상관성이 크다면 합치는게 좋을까요?