Python 튜토리얼

Lv1 모델링 python 파이썬 train_test_split() - (3)

2021.10.14 15:26 3,892 조회

안녕하세요. 👨‍🏭👩‍🏭

이번시간에는 train_test_split() 메소드의 test_size 파라미터와 shuffle 파라미터 에 대해 알아보겠습니다.


  • test_size : test data(validation data) 구성의 비율을 나타냅니다. train_size의 옵션과 반대 관계에 있는 옵션 값이며, 주로 test_size 파라미터를 지정 해줍니다. test_size = 0.2 로 지정 하면 전체 데이터 셋의 20%를 test(validation) 셋으로 지정하겠다는 의미입니다. default 값은 0.25 입니다.


  • shuffle : 데이터를 split 하기 이전에 섞을지 말지 여부에 대해 지정해주는 파라미터 입니다. default = True 입니다.


--------------------------------------------------------------------------------------------------------------------------------------------

# 라이브러리 로딩

from sklearn.model_selection import train_test_split


#train_test_split() 메소드를 이용해 train/validation 데이터 나누기 

# test_size = 0.2로 지정하여 데이터 셋 split


x_train,x_valid, y_train, y_valid = train_test_split(train_x,train['category'],test_size = 0.2)


print('x_train 데이터 사이즈', x_train.shape)

print('x_valid 데이터 사이즈', x_valid.shape)

print('y_train 데이터 사이즈', y_train.shape)

print('y_valid 데이터 사이즈', y_valid.shape)



output :

x_train 데이터 사이즈 (28000, 697226)

x_valid 데이터 사이즈 (12000, 697226)

y_train 데이터 사이즈 (28000,)

y_valid 데이터 사이즈 (12000,)

--------------------------------------------------------------------------------------------------------------------------------------------


[Colab 실습 링크]


↩️ 오늘의 파이썬 리스트


👨‍💻데이스쿨 로 Up-Skill Re-Skill👩🏻‍💻


#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn  # train_test_split()


로그인이 필요합니다
0 / 1000
왼쪽눈썹왁싱
2021.11.03 12:05

moran
2022.01.04 15:51

dbnoid
2022.01.20 13:26

acebed
2022.03.11 14:52

done

비회원
2022.04.07 11:30

코튼클린
2023.01.17 16:25

done

highllight
2023.02.12 17:46