분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
trainset에 대한 RAM용량 초과이슈
안녕하세요!
데이터를 불러오는 과정에서 파이썬으로 pd.readcsv("train.csv")를 하였으나,
train.csv파일이 너무 커서 cpu RAM 용량을 초과하는 이슈가 발생했습니다. (제가 보유한 CPU RAM용량은 29GB 입니다.)
혹시 baseline을 돌리신 분들께서는 어떤 환경에서 작업하셨는 지 궁금합니다! ( colab pro : 32GB, pro+ : 52GB 인걸로 확인했습니다.)
이 상황에서 만약 저라면 RAM이 큰 개발환경을 구축하는 게 좋을 지,
아니면 데이터를 쪼개서 연합학습 혹은 미니배치처럼 쓰기 등의 방법을 쓰는 게 좋을 지.. 조언주시면 감사하겠습니다.
parquet 파일로 변환하면 1GB로 변환 가능합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
위 문제상황을 잘 해결해주신 EISLab_이희원님의 글 링크를 댓글에 써놓겠습니다!!
https://dacon.io/competitions/official/236258/talkboard/411715