월간 데이콘 행동 데이터 분석 인공지능 AI 경진대회

알고리즘 | 정형 | 분류 | 게임 | AUC

  • moneyIcon 상금 : 100만원
  • 1,101명 마감

 

CSV 파일 형식보다 2배 빠르게 load하기

2020.03.01 13:39 8,026 조회 language

로컬 컴퓨터로 제공된 데이터인 CSV 파일(train.csv, test.csv) 을 load할 때 약 1분가량 소요 됩니다.
CSV 파일을 feather 파일 형식으로 저장시켜준 후 이를 load 하면 train과 test를 불러올 때 30초만에 불러오실 수 있습니다.



불러오는 시간은 각자의 컴퓨터 사양에 따라 다를 수 있습니다.

코드
로그인이 필요합니다
0 / 1000
당쇠
2020.03.01 23:02

import dask.dataframe
data = dask.dataframe.read_csv(“random.csv”)

import datatable as dt
data = datatable.fread(random.csv)

import paratext
data = paratext.load_csv_to_pandas(“random.csv”)
 도 있습니다 .참고 하세요

최정명
2020.03.02 02:31

이 방법으로 load 했을 때 pandas의 DataFrame 형식처럼 이용할 수 있나요 ? 

그리고 dask.dataframe.read_csv 형식으로 파일을 로드해보았는데 파일을 메모리에 올려두지 않고 data.head() 같이 명령어를 통해 필요한 데이터들만 딱 불러오는거 같네요. 좋은 정보 감사합니다.

민트김치찜살인사건
2020.03.05 20:17

혹시 데이터를 어디서 다운받는지 아시나요?

최정명
2020.03.05 20:24

https://dacon.io/competitions/official/235583/data/
대회 참여 동의하시고 데이터 다운로드 하시면 돼요

이전 글
[월간 데이콘 3][EDA]종족별 선택 횟수, 승률
대회 - 월간 데이콘 행동 데이터 분석 인공지능 AI 경진대회
좋아요 18
조회 7,040
댓글 9
4년 전
현재 글
CSV 파일 형식보다 2배 빠르게 load하기
대회 - 월간 데이콘 행동 데이터 분석 인공지능 AI 경진대회
좋아요 28
조회 8,026
댓글 6
4년 전
다음 글
다음 글이 존재하지 않습니다.