건설용 자갈 암석 종류 분류 AI 경진대회

알고리즘 | 월간 데이콘 | 비전 | 분류 | macro-f1

  • moneyIcon 상금 : 데이스쿨 프로 구독권
  • 2025.04.08 ~ 2025.05.30 09:59 + Google Calendar
  • 762명 마감

 

대규모 데이터셋 클라우드 환경 관련 질문

2025.05.20 12:50 283 조회

이번에 진행하는 대회 중

  • 신용카드 고객 세그먼트 분류 AI 경진대회
  • 건설용 자갈 암석 종류 분류 AI 경진대회


2가지는 데이터 크기가 상당히 큰 편인데, 다들 어떤 환경에서 (로컬 or 클라우드) 돌리고 계신가요?

저는 신용카드의 경우는 colab + google drive 를 통해서 코드를 돌렸는데,


이번 건설용 자갈 암석 종류 분류 AI 경진대회의 경우 드라이브에 넣으면 계속 I/O 병목 현상이 발생해서,

코드를 돌리기 힘들더라고요. 혹시 클라우드 환경에서 코드를 돌리시는 분들 중 해당 대회를 참여하시는 분들은

어떻게 이러한 문제를 해결하고 계신지 궁금합니다!

로그인이 필요합니다
0 / 1000
NN_is_all_you_need
2025.05.20 13:56

코랩 쓰실땐 데이터를 /content 경로에 직접 압축풀어서 사용하시면 굉장히 빨라질거에요

과적합방지위원회
2025.05.20 15:29

/content 경로에 직접 올렸을 때, 용량이 너무 커서 2GB 정도 끊어서 옮겨야 하더라고요.
그래서 일단 끊어서 5번에 나눠 올려봤는데 자주 튕기고 끊기고 난리가 나서 암울합니다 (ㅠㅠ)

건우_2021
2025.05.27 16:03

이렇게 압축풀고 베이스라인 돌려보는데 첫번째 에포크에서부터 2시간 넘게 걸려요.. 혹시 정상인가요..? ㅠㅠ

과적합방지위원회
2025.05.27 16:23

저는 Colab Pro 결제해서 A100을 사용하는데, 베이스라인은 아니고 조치연님 코드 참고해서 돌렸을 때 5~6시간정도 걸렸던거 같아요.

조치연
2025.05.21 00:26

Colab에서 사용하실 때, 이전 답변하신 분이 알려주신 것처럼 직접 압축 푸시는 게 훨씬 빠릅니다.
끊어서 옮긴다는 것이 직접 드래그해서 그런 현상이 생기시는 것 같은데, !unzip과 같은 command로 수행하시면 됩니다.
예를들어, !unzip '/content/gdrive/open.zip' 이런 식으로요!

조치연
2025.05.21 00:28

제가 토크에 올려놓은 코드 참고해보세요

과적합방지위원회
2025.05.21 04:23

코드 보니 도움이 많이 되었습니다. 감사합니다!