인구 데이터 기반 소득 예측 AI 해커톤

0.43의 상관성을 보이는 피쳐를 생성해보았습니다.

2022.04.25 12:38 1,192 Views

혼자 살면 소득이 높다고 가정을 해보았습니다.

martial.status 에서 여러 클래스를 Alone, Not Alone으로 구분해서 상관계수를 확인해보았더니 0.43의 값을 보이군요

참고하시길!

```

train['marital.status'] = train['marital.status'].replace(['Never-married','Divorced','Widowed','Separated'], 'alone')

test['marital.status'] = test['marital.status'].replace(['Never-married','Divorced','Widowed','Separated'], 'alone')


train['marital.status'] = train['marital.status'].replace(['Married-civ-spouse','Married-spouse-absent','Married-AF-spouse'], 'not alone')

test['marital.status'] = test['marital.status'].replace(['Married-civ-spouse','Married-spouse-absent','Married-AF-spouse'], 'not alone')


train['marital.status']=train['marital.status'].map({'not alone':1,'alone':0})

test['marital.status']=test['marital.status'].map({'not alone':1,'alone':0})

```


이외에도

total_capital = capital_gain - capital_loss, target값과 total_capital은 0.22의 관련성을 가지는군요.

로그인이 필요합니다
0 / 1000
종버버버
2022.04.25 13:15

 저도 total_capital에 대해 생각해봤는데
합치지 않는게 좋지 않을까요?

예를들어 ) 주식 수익 - 방 월세 이런 개념이 될 것 같아서

그래도 상관성이 크다면 합치는게 좋을까요?

백남진
2022.04.25 14:53

capital gain & loss를 주식, 채권, 펀드와 같은 자본 자산을 매각했을 때의 이익과 손해로만 보았습니다. 
상관성이 크다면 꼭 합치는 게 정답이 아니자만, GBDT 모델을 고려해봤을 때 유의미한 컬럼이 아니여도 해결해 줄 것이라 판단해서 만들어보았습니다.

해당 데이터셋의 capital의 범위와 정의를 알 수 있다면 논리적인 특성 공학이 되지 않을까 생각해봅니다.

종버버버
2022.04.25 20:57

확인해보니 capital_gain이 target과 상관계수 0.22를 가지네요

capital_loss가 상쇄되는것 같아요

백남진
2022.04.25 21:14

그렇군요, 아직 부족한 부분이 있네요.