분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Python 튜토리얼
Lv1 청와대 청원 데이터 EDA 복습
데이터를 n번째 행까지만 불러오기 위해서는 read_csv의 nrow 옵션을 이용하면 됩니다.
예를 들어 5번째 행 까지 데이터를 불러오고 싶다면 pd.read_csv('파일 경로', nrows=5) 으로 지정 해주면 됩니다.👨🏫
데이터의 n번째을 컬럼으로 지정하여불러오기 위해서는 read_csv의 header옵션을 이용하면 됩니다.
예를 들어 2번째 행을 컬럼으로 지정하여 데이터를 불러오고 싶다면 pd.read_csv('파일 경로', header=1) 으로 지정 해주면 됩니다.👨🏫
✅첫번째 행은 0부터 시작하니 주의 해주시길 바랍니다 !
데이터에서 컬럼을 인데스로 지정하여 불러오기 위해서는 read_csv의 index_col 옵션을 사용하시면 됩니다.
예를 들어 데이터에 python 컬럼이 있다고 했을 때, pd.read_csv('파일 경로', index_col='python') 으로 지정 해주면 됩니다.👨🏫
데이터에서 아래쪽 n개의 행을 제외 하고 불러오기 위해서는 read_csv의 skipfooter 옵션을 이용하면 됩니다.
예를 들어 밑에서 1번째 부터 5번째 행을 제외 하고 데이터를 불러오고 싶다면 pd.read_csv('파일 경로', skipfooter=5) 으로 지정 해주면 됩니다.👨⚖️
내가 불러오고자 하는 데이터의 encoding과 python encoding의 설정이 맞지 않는 경우 인코딩 에러가 발생하는데, 이러한 경우 read_csv의 encoding 옵션을 이용하면 됩니다. 데이터가 깨져서 불러와 지는 경우 pd.read_csv('파일 경로', encoding = 'utf-8') 혹은 pd.read_csv('파일 경로', encoding = 'cp949') 로 지정 해주면 됩니다.👨⚖️
데이터를 불러올 때 컬럼명을 지정하여 불러오기 위해서는 read_csv 에서 names 옵션을 이용하면 됩니다.
예를 들어 컬럼명을 '1번', '2번', '3번' 으로 지정 하고 싶다면 pd.read_csv('data',names = ['1번', '2번', '3번']) 으로 옵션을 지정해주면 됩니다.
파이썬에서 데이터 파일(CSV 파일)을 내보내기 위해서는 pandas 라이브러리의 to_csv 함수를 이용하면 손쉽게 데이터를 내보낼 수 있습니다.
DataFrame.to_csv('path')로 저장 할 수 있고, path에 저장하고 싶은 경로와 파일 명을 함께 넣어 주면 됩니다.
index를 포함 시키지 않고 데이터를 저장하기 위해서는 to_csv(index = False)로 지정해서 데이터를 저장 해주면 됩니다.👨🏫
파이썬에서 데이터의 결측치를 확인하는 방법은 여러가지가 있지만 그중 판다스의 isnull 함수를 이용하면 보다 쉽게 결측치를 확인 하실 수 있습니다.
isnull() 함수는 결측값을 True로, 결측값이 아닌 값을 False로 반환합니다. 그런데 이 때 각각의 값에 대하여 결측값 여부를 검사하기 때문에 sum 함수를 덧붙여 사용하면 각 컬럼마다 결측치가 몇개 있는지 확인할 수 있습니다.
데이터 프레임에서 각 column별 고유값의 개수를 구하기 위해서는 value_counts() 함수를 이용하면 됩니다.👨🏫
value_counts()는 어떤 컬럼/Seires의 uniqu 한 value 들을 count 해주는 함수 입니다.
value_count() 함수를 이용하면 출력값 으로 인덱스가 unique value로 값은 count가 들어가 있는 Series가 출력 됩니다.👩🌾👨🌾
데이터 프레임의 info() 함수는 데이터에 대한 전반적인 정보를 나타냅니다. 데이터 프레임을 구성하는 행과 열의 크기, 컬럼명, 컬럼을 구성하는 데이터 유형, 결측치 등 다양한 정보를 출력 해줍니다.
다음 시간 부터는 텍스트 데이터 전처리 과정에 대해 배워보도록 하겠습니다. 🙇♀️🙇♂️
↩️ 오늘의 파이썬 리스트
#데이콘_101 #AI #머신러닝 #딥러닝 #파이썬 #파이선 #데이터분석 #데이터사이언티스트 #코랩 #Python #colab #kaggle #pandas #numpy #sckit-learn #텍스트 데이터 # EDA
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
✅