분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
CSV 파일 형식보다 2배 빠르게 load하기
로컬 컴퓨터로 제공된 데이터인 CSV 파일(train.csv, test.csv) 을 load할 때 약 1분가량 소요 됩니다.
CSV 파일을 feather 파일 형식으로 저장시켜준 후 이를 load 하면 train과 test를 불러올 때 30초만에 불러오실 수 있습니다.
불러오는 시간은 각자의 컴퓨터 사양에 따라 다를 수 있습니다.
이 방법으로 load 했을 때 pandas의 DataFrame 형식처럼 이용할 수 있나요 ?
그리고 dask.dataframe.read_csv 형식으로 파일을 로드해보았는데 파일을 메모리에 올려두지 않고 data.head() 같이 명령어를 통해 필요한 데이터들만 딱 불러오는거 같네요. 좋은 정보 감사합니다.
혹시 데이터를 어디서 다운받는지 아시나요?
https://dacon.io/competitions/official/235583/data/
대회 참여 동의하시고 데이터 다운로드 하시면 돼요
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
import dask.dataframe
data = dask.dataframe.read_csv(“random.csv”)
import datatable as dt
data = datatable.fread(random.csv)
import paratext
data = paratext.load_csv_to_pandas(“random.csv”)
도 있습니다 .참고 하세요