위성 이미지 객체 검출 미래도전기술 경진대회

훈련시 계속 멈춤을 반복합니다.

2020.02.25 10:34 11,224 Views

윈도우10

rtx 2080ti (4대장착중이나 훈련시에는 잘 안쓰는 1대로만 진행중)

쿠다10 & 여기에 맞는 cudnn

python 3.7

TF 1.15x 버전


사용중입니다.



훈련 시 아래 사진과 같이 찔끔 훈련이 진행되다가 10-20분간 멈춰버립니다. 그러다 또 찔금 진행되다 멈춥니다..

(멈추었을 땐 Ctrl-C나 어떠한 키보드도 안먹습니다)


밤새도록 켜두어도 이러던데 혹시 해결책이나 짐작가는 원인이 있을까요 ㅠㅠ?



로그인이 필요합니다
0 / 1000
kveli
2020.02.26 00:03

다른 프로세스쪽에서 cpu나 메모리를 많이 사용하고 있는건 아닐까요?  진행은 되는데 중간 중간 멈추는거면 프로세스 스레싱 같아 보이네요.

goldant
2020.02.26 09:55

흐음... 메모리는 64기가라 여유가 충분히 있고 GPU로 학습중이라 CPU는 사용하지않아 여유가 있습니다.
구글에 어떻게든 검색해보니까 tfrecord를 만들 때의 그 코드가 공백(?)을 만들게 돼있어서? 저같은 멈춤 현상을 겪은 사람들이 있긴하네요. 해결했다는데 어떻게 해결했는지 다시 찾아보려고합니다.

SooCho
2020.02.26 23:09

삭제된 댓글입니다

전민준
2020.02.27 02:03

gpu 온도는 어떤가요 ? 

goldant
2020.02.27 11:14

50도 아래를 유지중입니다 ㅠㅠ 어디서 문제가 있는걸까요... 후
현재 다른피시에서 시도중입니다 감사합니다

홍영기
2020.03.05 18:33

저도 같은환경입니다. 
윈도우10
rtx 2080ti (4대장착중이나 훈련시에는 잘 안쓰는 1대로만 진행중)
쿠다10 & 여기에 맞는 cudnn
python 3.7
TF 1.15x 버전
저도 같은 증상이 있습니다. 

홍영기
2020.03.05 18:33

gpu는 2080ti 한대입니다.

goldant
2020.03.06 14:51

감사합니다

오진선
2020.08.18 04:47

안녕하세요. 저도 같은 증상을 여러차례 겪고 있습니다. 혹시 해결하셨는지요? 아니면 참고하고 계신 레퍼런스를 공유받을 수 있을까요??

phi5676
2020.10.20 15:13

https://github.com/tensorflow/models/issues/1817 
config 옵션 추가하면 잘 됩니다