[스터디 5기 정규반 1조 둘째주 토요일] 숙제인증

2024.03.05 17:22 184 Views language

히스토그램으로 분포를 관찰했을 때, 너무 좌측으로 skew된 데이터들은 np.log()를 취해 정규분포에 가깝게 processing하였고, 이 때, 값이 0인 데이터들은 -inf로 변환되기 때문에 이를 방지하기 위해 0~1 사이의 값으로 replace하여 가장 TARGET column과의 관계를 잘 나타낸다고 예측(correlation으로 확인하였습니다.)되는 값을 채택하였습니다.  범주형 데이터들은 공통인 특성들을 파악하여 묶어주었고, binary encoding으로 변환하였습니다.

Code