분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
GPU제공
안녕하세요. RTX2080 SUPER 8G로 베이스라인 코드를 실행해보는데, GPU메모리 에러가 발생합니다. RTX2080정도면 우수한 GPU인데 이것으로 베이스 라인 코드를 실행할 수 없다는 사실이 당황스럽습니다.
공지를 보니, 2차 설명회 참여한 팀 등등 하여 30팀만 GPU리소스를 제공해주신다고 하셨는데,
남은 대회기간동안 모든 팀에게 GPU리소스를 제공해주시면 지금보다 많은 팀들의 대회 참여가 좀 더 활발하게 이루어질 수 있을 것 같다는 의견을 건의드립니다.
답변 감사합니다. 하지만 위와 같은 솔루션은 구글링으로 쉽게 나오는 방법이며 이미 시도해보았으나 해결되지 않아서 올리는 글입니다.
안녕하세요. supermarine님 의견 감사드립니다.
1. 동은동님께서 언급해주신바와 같이 해당 내용은 GPU OOM 문제가 아닌것으로 확인됩니다. 8GB의 성능으로도 충분히 훈련이 가능합니다.
2. 또한 메모리 부족문제는 파라미터 수정으로 어느정도 컨트롤이 가능하게 베이스라인 모델이 설계되어있습니다. 설명회 자료를 참고해주시면 감사하겠습니다.
3. 대회 설명회는 2차례 대회 기간 전, 중에 홍보되었습니다. 또한 토큰 배포의 우선순위는 서브미션을 진행한 팀에 좀 더 우선권을 두었고, 공지기간동안 서브미션을 진행할 수 있도록 코드공유에 colab을 사용한 baseline 코드를 올려두었습니다.
지원 한도는 20개의 GPU이며, 그 이상의 제공은 제한되고 있습니다. 감사합니다.
윗분이 올려주신 해결방안으로 해결되지 않으며 코드 실행시 gpu메모리 변화량을 관찰하였을 때 맥시멈을 초과한 후에 코드가 중단됩니다. 몇몇 파라미터 조정을 시도해보았으나 똑같은 에러가 발생합니다. 혹시 어떠한 파라미터를 조정해야할까요?
추가로 말씀드리면 베이스라인코드 개발환경으로 적어놓으신 버전들이 있는데, 제가 사용하는 RTX2080SUPER가 cuda9.0이랑 호환이 되지 않아서 적어놓으신 개발환경과 다른 버전의 tf를 사용해야합니다.
안녕하세요. supermarine님 혹시 발생하는 에러 스크린샷 찍어서 토론에 올려주실 수 있나요? :)
개발 환경 세팅은 모두 하신건가요? tf 1.6, cuda 9.0, cudnn 7.0 이하로 하셔야 정상 작동합니다.
제가 사용하는 RTX2080SUPER가 cuda9.0이랑 호환이 되지 않아서 베이스라인에 적혀있는 개발환경과 다른 버전의 tf를 사용 중입니다.
RTX2080s에 cuda9.0 설치 가능하구요. 아마 안된다고 하시는거는 드라이버 버전 문제인것 같네요.
그렇다고 이 대회 하나 때문에 cuda 재설치하는건 비효율적이니 제가 예전에 토론에 올려드렸던 도커 이미지 사용해보세요 .
링크 남겨드려요.
Docker Hub TF Repo: https://hub.docker.com/r/tensorflow/tensorflow
TF 1.6 py3-gpu Docker Image: https://hub.docker.com/layers/tensorflow/tensorflow/1.6.0-gpu-py3/images/sha256-0f4b997bc3af4caa3b700552bf295dde3a6a36c4816ff036d0ddd1632e73cb52
베이스라인 제출에 개발환경이 문제가 되지는 않았습니다. 저희 팀은 구글 코랩을 사용해서 1차데이터의 학습을 마칠 수 있었고, 2차데이터를 받는데 성공했습니다. 코드 공유 탭에서 코랩으로 베이스라인 제출까지의 과정에 대해서 친절하게 설명해주신 분이 있어서 많은 도움을 받았습니다. 한번 시도해보시길 추천드립니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
해당 오류는 GPU의 성능이 부족하여 나타나는것은 아닌거 같습니다...!
import tensorflow as tf
config = tf.ConfigProto()
config.gpu_options.allow_growth = True
session = tf.Session(config=config)
첫 셀에서 실행해보시면 도움이 되실 수도 있을거같아 공유합니다