위성 이미지 객체 검출 미래도전기술 경진대회

GPU제공

2020.02.16 05:15 4,253 Views

안녕하세요. RTX2080 SUPER 8G로  베이스라인 코드를 실행해보는데,  GPU메모리 에러가 발생합니다. RTX2080정도면 우수한 GPU인데 이것으로 베이스 라인 코드를 실행할 수 없다는 사실이 당황스럽습니다.  


공지를 보니, 2차 설명회 참여한 팀 등등 하여 30팀만 GPU리소스를 제공해주신다고 하셨는데,

  1. 이 대회가 리소스 문제로 진입장벽이 높은 점과
  2. 이로 인해  현재 이 대회의 참여 팀 수는 350팀가까이 되는데, 데이터를 다운받아서 코드를 실행하여 의미 있는 점수로 제출까지 한 팀은 30팀도 안된다는 점,
  3. 대회 모집전에 설명회에 대한 언급 및 GPU리소스 제공에 대한 사전 공지가 없었기에, 2차 설명회 참여율이 낮을 수 밖에 없었다는 점을 고려하여

남은 대회기간동안 모든 팀에게 GPU리소스를 제공해주시면 지금보다 많은 팀들의 대회 참여가 좀 더 활발하게 이루어질 수 있을 것  같다는 의견을 건의드립니다.

로그인이 필요합니다
0 / 1000
동은동
2020.02.16 11:03

해당 오류는 GPU의 성능이 부족하여 나타나는것은 아닌거 같습니다...! 
import tensorflow as tf

config = tf.ConfigProto()

config.gpu_options.allow_growth = True

session = tf.Session(config=config)

첫 셀에서 실행해보시면 도움이 되실 수도 있을거같아 공유합니다

supermarine
2020.02.16 19:09

답변 감사합니다. 하지만 위와 같은  솔루션은 구글링으로 쉽게 나오는 방법이며 이미 시도해보았으나 해결되지 않아서 올리는 글입니다.

DACON.JIN
2020.02.16 13:12

안녕하세요. supermarine님 의견 감사드립니다. 
1. 동은동님께서 언급해주신바와 같이 해당 내용은 GPU OOM 문제가 아닌것으로 확인됩니다. 8GB의 성능으로도 충분히 훈련이 가능합니다.
2. 또한 메모리 부족문제는 파라미터 수정으로 어느정도 컨트롤이 가능하게 베이스라인 모델이 설계되어있습니다. 설명회 자료를 참고해주시면 감사하겠습니다.

DACON.JIN
2020.02.16 13:20

3. 대회 설명회는 2차례 대회 기간 전, 중에 홍보되었습니다.  또한 토큰 배포의 우선순위는 서브미션을 진행한 팀에 좀 더 우선권을 두었고, 공지기간동안 서브미션을 진행할 수 있도록 코드공유에 colab을 사용한 baseline 코드를 올려두었습니다. 
지원 한도는 20개의 GPU이며, 그 이상의 제공은 제한되고 있습니다. 감사합니다.

supermarine
2020.02.16 20:10

윗분이 올려주신 해결방안으로 해결되지 않으며 코드 실행시 gpu메모리 변화량을 관찰하였을 때 맥시멈을 초과한 후에 코드가 중단됩니다.  몇몇 파라미터 조정을 시도해보았으나 똑같은 에러가 발생합니다. 혹시 어떠한 파라미터를 조정해야할까요?  
추가로 말씀드리면 베이스라인코드 개발환경으로 적어놓으신 버전들이 있는데, 제가 사용하는 RTX2080SUPER가 cuda9.0이랑 호환이 되지 않아서 적어놓으신 개발환경과 다른 버전의 tf를 사용해야합니다. 

DACON.JIN
2020.02.17 10:20

안녕하세요. supermarine님 혹시 발생하는 에러 스크린샷 찍어서 토론에 올려주실 수 있나요? :)

kveli
2020.02.16 19:15

개발 환경 세팅은 모두 하신건가요? tf 1.6, cuda 9.0, cudnn 7.0 이하로 하셔야 정상 작동합니다.

supermarine
2020.02.16 20:10

제가 사용하는 RTX2080SUPER가 cuda9.0이랑 호환이 되지 않아서 베이스라인에 적혀있는 개발환경과 다른 버전의 tf를 사용 중입니다. 

kveli
2020.02.17 00:20

RTX2080s에 cuda9.0 설치 가능하구요. 아마 안된다고 하시는거는 드라이버 버전 문제인것 같네요.
그렇다고 이 대회 하나 때문에 cuda 재설치하는건 비효율적이니 제가 예전에 토론에 올려드렸던 도커 이미지 사용해보세요 .

링크 남겨드려요. 
Docker Hub TF Repo: https://hub.docker.com/r/tensorflow/tensorflow

kveli
2020.02.17 00:21

TF 1.6 py3-gpu Docker Image: https://hub.docker.com/layers/tensorflow/tensorflow/1.6.0-gpu-py3/images/sha256-0f4b997bc3af4caa3b700552bf295dde3a6a36c4816ff036d0ddd1632e73cb52

fumi
2020.02.17 02:41

베이스라인 제출에 개발환경이 문제가 되지는 않았습니다. 저희 팀은 구글 코랩을 사용해서 1차데이터의 학습을 마칠 수 있었고, 2차데이터를 받는데 성공했습니다. 코드 공유 탭에서 코랩으로 베이스라인 제출까지의 과정에 대해서 친절하게 설명해주신 분이 있어서 많은 도움을 받았습니다. 한번 시도해보시길 추천드립니다.