웹 광고 클릭률 예측 AI 경진대회

알고리즘 | 정형 | 시계열 | 분류 | 웹 로그 | AUC

  • moneyIcon Prize : 인증서 + 데이스쿨
  • 997명 마감

 

trainset에 대한 RAM용량 초과이슈

2024.05.08 10:27 975 Views

안녕하세요!


데이터를 불러오는 과정에서 파이썬으로 pd.readcsv("train.csv")를 하였으나,

train.csv파일이 너무 커서 cpu RAM 용량을 초과하는 이슈가 발생했습니다. (제가 보유한 CPU RAM용량은 29GB 입니다.)


혹시 baseline을 돌리신 분들께서는 어떤 환경에서 작업하셨는 지 궁금합니다! ( colab pro : 32GB, pro+ : 52GB 인걸로 확인했습니다.)

이 상황에서 만약 저라면 RAM이 큰 개발환경을 구축하는 게 좋을 지,

아니면 데이터를 쪼개서 연합학습 혹은 미니배치처럼 쓰기 등의 방법을 쓰는 게 좋을 지.. 조언주시면 감사하겠습니다.

로그인이 필요합니다
0 / 1000
진현림
2024.05.08 16:12

위 문제상황을 잘 해결해주신 EISLab_이희원님의 글 링크를 댓글에 써놓겠습니다!!
https://dacon.io/competitions/official/236258/talkboard/411715

dswook
2024.05.10 23:00

parquet 파일로 변환하면 1GB로 변환 가능합니다.