분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
CSV 파일 형식보다 2배 빠르게 load하기
로컬 컴퓨터로 제공된 데이터인 CSV 파일(train.csv, test.csv) 을 load할 때 약 1분가량 소요 됩니다.
CSV 파일을 feather 파일 형식으로 저장시켜준 후 이를 load 하면 train과 test를 불러올 때 30초만에 불러오실 수 있습니다.
불러오는 시간은 각자의 컴퓨터 사양에 따라 다를 수 있습니다.
이 방법으로 load 했을 때 pandas의 DataFrame 형식처럼 이용할 수 있나요 ?
그리고 dask.dataframe.read_csv 형식으로 파일을 로드해보았는데 파일을 메모리에 올려두지 않고 data.head() 같이 명령어를 통해 필요한 데이터들만 딱 불러오는거 같네요. 좋은 정보 감사합니다.
혹시 데이터를 어디서 다운받는지 아시나요?
https://dacon.io/competitions/official/235583/data/
대회 참여 동의하시고 데이터 다운로드 하시면 돼요
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
import dask.dataframe
data = dask.dataframe.read_csv(“random.csv”)
import datatable as dt
data = datatable.fread(random.csv)
import paratext
data = paratext.load_csv_to_pandas(“random.csv”)
도 있습니다 .참고 하세요