Python 튜토리얼

기초

  • moneyIcon Prize : 교육
  • 9,999명 D-100691

 

Lv1 청와대 청원 데이터 EDA 복습

2021.09.17 11:07 2,300 Views

데이터 불러오기


💦 데이터의 n번째 행까지 불러오기

데이터를 n번째 행까지만 불러오기 위해서는 read_csv의 nrow 옵션을 이용하면 됩니다.

예를 들어 5번째 행 까지 데이터를 불러오고 싶다면 pd.read_csv('파일 경로', nrows=5) 으로 지정 해주면 됩니다.👨‍🏫


💥 데이터의 n번째 행을 컬럼으로 지정하여  불러오기

데이터의 n번째을 컬럼으로 지정하여불러오기 위해서는 read_csv의 header옵션을 이용하면 됩니다.

예를 들어 2번째 행을 컬럼으로 지정하여 데이터를 불러오고 싶다면 pd.read_csv('파일 경로', header=1) 으로 지정 해주면 됩니다.👨‍🏫


✅첫번째 행은 0부터 시작하니 주의 해주시길 바랍니다 !


🥤 데이터에서 컬럼을 index로 지정하여 불러오기

데이터에서 컬럼을 인데스로 지정하여 불러오기 위해서는 read_csv의 index_col 옵션을 사용하시면 됩니다.

예를 들어 데이터에 python 컬럼이 있다고 했을 때, pd.read_csv('파일 경로', index_col='python') 으로 지정 해주면 됩니다.👨‍🏫


🍰 데이터에서 뒤에서 n개의 행  제외하고 불러오기

데이터에서 아래쪽 n개의 행을 제외 하고 불러오기 위해서는 read_csv의 skipfooter 옵션을 이용하면 됩니다.

예를 들어 밑에서 1번째 부터 5번째 행을 제외 하고 데이터를 불러오고 싶다면 pd.read_csv('파일 경로', skipfooter=5) 으로 지정 해주면 됩니다.👨‍⚖️


🍰 데이터의 인코딩 형식을 맞춰서 불러오기

내가 불러오고자 하는 데이터의 encoding과 python encoding의 설정이 맞지 않는 경우 인코딩 에러가 발생하는데, 이러한 경우  read_csv의 encoding 옵션을 이용하면 됩니다. 데이터가 깨져서 불러와 지는 경우 pd.read_csv('파일 경로', encoding = 'utf-8') 혹은 pd.read_csv('파일 경로', encoding = 'cp949') 로 지정 해주면 됩니다.👨‍⚖️


🥠 데이터를 불러올 때 컬럼명을 지정해서 불러오기.

데이터를 불러올 때 컬럼명을 지정하여 불러오기 위해서는 read_csv 에서 names 옵션을 이용하면 됩니다.

예를 들어 컬럼명을 '1번', '2번', '3번' 으로 지정 하고 싶다면 pd.read_csv('data',names = ['1번', '2번', '3번']) 으로 옵션을 지정해주면 됩니다.




💫파이썬 파일 내보내기

파이썬에서 데이터 파일(CSV 파일)을 내보내기 위해서는 pandas 라이브러리의 to_csv 함수를 이용하면 손쉽게 데이터를 내보낼 수 있습니다.

DataFrame.to_csv('path')로 저장 할 수 있고, path에 저장하고 싶은 경로와 파일 명을 함께 넣어 주면 됩니다.

index를 포함 시키지 않고 데이터를 저장하기 위해서는 to_csv(index = False)로 지정해서 데이터를 저장 해주면 됩니다.👨‍🏫


🥞결측치 확인하기

파이썬에서 데이터의 결측치를 확인하는 방법은 여러가지가 있지만 그중 판다스의 isnull 함수를 이용하면 보다 쉽게 결측치를 확인 하실 수 있습니다.

isnull() 함수는 결측값을 True로, 결측값이 아닌 값을 False로 반환합니다. 그런데 이 때 각각의 값에 대하여 결측값 여부를 검사하기 때문에 sum 함수를 덧붙여 사용하면 각 컬럼마다 결측치가 몇개 있는지 확인할 수 있습니다.


🔶value_counts()

데이터 프레임에서 각 column별 고유값의 개수를 구하기 위해서는 value_counts()  함수를 이용하면 됩니다.👨‍🏫

value_counts()는 어떤 컬럼/Seires의 uniqu 한 value 들을 count 해주는 함수 입니다.

value_count() 함수를 이용하면 출력값 으로 인덱스가 unique value로 값은 count가 들어가 있는 Series가 출력 됩니다.👩‍🌾👨‍🌾


💥데이터 기본 정보 확인하기 (info())

데이터 프레임의 info() 함수는 데이터에 대한 전반적인 정보를 나타냅니다. 데이터 프레임을 구성하는 행과 열의 크기, 컬럼명, 컬럼을 구성하는 데이터 유형, 결측치 등 다양한 정보를 출력 해줍니다.



다음 시간 부터는 텍스트 데이터 전처리 과정에 대해 배워보도록 하겠습니다. 🙇‍♀️🙇‍♂️


↩️ 오늘의 파이썬 리스트


#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn #텍스트 데이터 # EDA





로그인이 필요합니다
0 / 1000
다욤
2021.09.26 15:44

이전 글
인덱싱을 위한 Pandas .iloc .loc 사용 방법 데이터 분석 및 조작을위한
Competition - Python 튜토리얼
Likes 4
Views 1,870
Comments 0
일 년 전
현재 글
Lv1 청와대 청원 데이터 EDA 복습
Competition - Python 튜토리얼
Likes 0
Views 2,300
Comments 2
3년 전
다음 글
다음 글이 존재하지 않습니다.