분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
병변 검출 AI 경진대회
Colab 사용 관련하여
안녕하세요
Colab 활용해서 이번 대회 참여하시는 분들
데이터 어떻게 관리하고 계신가요?
Drive에 데이터 업로드하는 속도랑 Colab에서 Drive의 데이터 처리하는 속도가 너무 느리네요...ㅠ
원래 이랬던 건진 모르겠지만...
Baseline에서는 json 파일 처리할 때
tqdm 출력을 보면 train 데이터는 5초, test 데이터는 1초 나오던데
colab에서 하니 test 데이터가 2시간 반 예상이라고 뜨는 걸 보고
그냥 local에서 했습니다..
저 같은 경우,
train 데이터를 Google Drive에 업로드하려 하니 예상 시간이 6시간이라고 떠서..
오늘 제출해보려면 train 데이터를 다 활용하진 말고 돌려봐야될 듯 한데
Colab 활용하면 원래 이런 건가요?
참고로, 저는 Colab pro, Google drive는 100GB 월정액 사용하고 있습니다.
어쩔 수 없는 문제군요..ㅠ
구글 드라이브에서 여러개의 파일을 연속해서 불러올경우 대기시간이 발생해서 엄청 오래걸려요.
구글 드라이브에는 압축해서 하나로 올리신 다음에
colab에서 기본 제공해주는 디스크 공간에 압축 풀어서 사용하세요.
한 번 그렇게 해봐야겠네요
감사합니다 ㅎㅎ
!unzip 사용했을 때 유실되는 파일이 있는데 따로 사용하시는 방법이 있으신가요?
압축 푸는 형태로 돌리시니 어떠셨나요?
이번 대회에서는 이미 데이터를 만들어놨었기에 압축 푸는 형태로 해보진 못했습니다.
다만, 이후 다른 대회들에서 !unzip 활용해보니 colab이나 kaggle 환경에서 매우 유용한 것 같습니다
InCheol_Shin님이 언급하신 것처럼 큰 파일을 unzip할 때 유실 파일이 종종 생긴다고 하던데
저의 경우, 2~3GB unzip할 때는 데이터 유실되는 게 없었습니다.
자세한 답변 감사합니다!!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저도 어제 하루 파일 업로드에 시간을 할애하였습니다. 파일이 많다 보니 어쩔 수 없더라구요.. ㅎㅎ