분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Python 튜토리얼
Lv4 전처리 6/9 python 파이썬 연속형 변수 변환 (1)
머신러닝 모델링을 하다 보면 제한된 변수로 성능을 끌어 올리는 데는 한계가 있습니다.
실제 데이콘 대회 우승자 코드를 살펴보면, 전처리와 모델링은 크게 차이가 없습니다.
우승자들과 그 외 사람들을 비교해보면, 크게 다음 두 가지에서 큰 차이를 보입니다.
특히 정형 데이터의 경우 데이터 증강은 제한적입니다. 그래서 더욱더 효율적인 파생 변수를 추가하는 것이 중요합니다.
오늘은 가장 간단하게 파생 변수를 추가할 수 있는 방법인 연속형 변수를 범주형 변수로 변환 시켜보겠습니다.
연속형 변수를 범주형 변수로 변환 시키는 방법은 여러가지가 있겠지만 크게 2가지에 대해서 알아보도록 하겠습니다.
오늘은 첫번째 방법인 수치 범위 구간을 직접 지정해 레이블링 시켜 보겠습니다.
------------------------------------------------------------------------------------------------------------------------------------
# train 데이터의 pH 변수를 구간이 4개인 범주형 변수로 변환
# pH < 1 -> lowest
# 1<= pH < 2 -> low
# 2 <= pH < 3-> normal
# 3 <= pH -> high
def func(x):
if x < 3:
return 'lowest'
elif x < 3.3:
return 'low'
elif x < 3.5:
return 'normal'
else :
return'high'
train['pH'] = train['pH'].apply(lambda x : func(x))
------------------------------------------------------------------------------------------------------------------------------------
↩️ 오늘의 파이썬 리스트
#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn # read_csv #스케일링 #MinMaxScailing
done
✅
✅
done
✅
✅
✅
done
done
✅
✅
✅
✅
✅
✅
done+
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
done