병변 검출 AI 경진대회

Colab 사용 관련하여

2021.11.16 18:38 3,896 조회

안녕하세요


Colab 활용해서 이번 대회 참여하시는 분들

데이터 어떻게 관리하고 계신가요?


Drive에 데이터 업로드하는 속도랑 Colab에서 Drive의 데이터 처리하는 속도가 너무 느리네요...ㅠ

원래 이랬던 건진 모르겠지만...


Baseline에서는 json 파일 처리할 때

tqdm 출력을 보면 train 데이터는 5초, test 데이터는 1초  나오던데


colab에서 하니 test 데이터가 2시간 반 예상이라고 뜨는 걸 보고

그냥 local에서 했습니다..


저 같은 경우,

train 데이터를 Google Drive에 업로드하려 하니 예상 시간이 6시간이라고 떠서..

오늘 제출해보려면 train  데이터를 다 활용하진 말고 돌려봐야될 듯 한데


Colab 활용하면 원래 이런 건가요?


참고로, 저는 Colab pro, Google drive는 100GB 월정액 사용하고 있습니다.

로그인이 필요합니다
0 / 1000
datu
2021.11.16 22:57

저도 어제 하루 파일 업로드에 시간을 할애하였습니다. 파일이 많다 보니 어쩔 수 없더라구요.. ㅎㅎ

하르딘
2021.11.17 13:33

어쩔 수 없는 문제군요..ㅠ 

DACON.Dobby
2021.11.17 08:20

구글 드라이브에서 여러개의 파일을 연속해서 불러올경우 대기시간이 발생해서 엄청 오래걸려요.
구글 드라이브에는 압축해서 하나로 올리신 다음에
colab에서 기본 제공해주는 디스크 공간에 압축 풀어서 사용하세요.

하르딘
2021.11.17 13:34

한 번 그렇게 해봐야겠네요
감사합니다 ㅎㅎ

InCheol_Shin
2021.11.17 20:26

!unzip 사용했을 때 유실되는 파일이 있는데 따로 사용하시는 방법이 있으신가요?

ingbeeeded
2022.01.06 16:22

압축 푸는 형태로 돌리시니 어떠셨나요?

하르딘
2022.01.06 18:08

이번 대회에서는 이미 데이터를 만들어놨었기에 압축 푸는 형태로 해보진 못했습니다.
다만, 이후 다른 대회들에서 !unzip 활용해보니 colab이나 kaggle 환경에서 매우 유용한 것 같습니다

InCheol_Shin님이 언급하신 것처럼 큰 파일을 unzip할 때 유실 파일이 종종 생긴다고 하던데
저의 경우, 2~3GB unzip할 때는 데이터 유실되는 게 없었습니다.  

ingbeeeded
2022.01.06 18:57

자세한 답변 감사합니다!!