분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
대규모 데이터셋 클라우드 환경 관련 질문
이번에 진행하는 대회 중
2가지는 데이터 크기가 상당히 큰 편인데, 다들 어떤 환경에서 (로컬 or 클라우드) 돌리고 계신가요?
저는 신용카드의 경우는 colab + google drive 를 통해서 코드를 돌렸는데,
이번 건설용 자갈 암석 종류 분류 AI 경진대회의 경우 드라이브에 넣으면 계속 I/O 병목 현상이 발생해서,
코드를 돌리기 힘들더라고요. 혹시 클라우드 환경에서 코드를 돌리시는 분들 중 해당 대회를 참여하시는 분들은
어떻게 이러한 문제를 해결하고 계신지 궁금합니다!
/content 경로에 직접 올렸을 때, 용량이 너무 커서 2GB 정도 끊어서 옮겨야 하더라고요.
그래서 일단 끊어서 5번에 나눠 올려봤는데 자주 튕기고 끊기고 난리가 나서 암울합니다 (ㅠㅠ)
이렇게 압축풀고 베이스라인 돌려보는데 첫번째 에포크에서부터 2시간 넘게 걸려요.. 혹시 정상인가요..? ㅠㅠ
저는 Colab Pro 결제해서 A100을 사용하는데, 베이스라인은 아니고 조치연님 코드 참고해서 돌렸을 때 5~6시간정도 걸렸던거 같아요.
Colab에서 사용하실 때, 이전 답변하신 분이 알려주신 것처럼 직접 압축 푸시는 게 훨씬 빠릅니다.
끊어서 옮긴다는 것이 직접 드래그해서 그런 현상이 생기시는 것 같은데, !unzip과 같은 command로 수행하시면 됩니다.
예를들어, !unzip '/content/gdrive/open.zip' 이런 식으로요!
제가 토크에 올려놓은 코드 참고해보세요
코드 보니 도움이 많이 되었습니다. 감사합니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
코랩 쓰실땐 데이터를 /content 경로에 직접 압축풀어서 사용하시면 굉장히 빨라질거에요