Cuda error 발생하시는 분 계신가요?

2024.01.03 20:51 1,130 조회

주피터 노트북에서 계속 Cuda error가 발생합니다.

인터넷에 찾아봐서 포맷도 시켜보고 Cuda도 pytorch버전에 맞게 설치도 해봤는데 해결이 안되네요...

로그인이 필요합니다
0 / 1000
NN_is_all_you_need
2024.01.04 13:31

Cuda 에러도 종류가 다양해서 단순히 Cuda 에러라고 하시면 가늠하기가 어렵습니다 ㅠㅠ
어떤 GPU를 사용하고 있으신지 아니면 어느정도의 데이터 혹은 배치 사이즈를 사용하고 또 코드는 어떻게 구현해서 돌리시는지와 정확한 에러명칭을 알려주시면 도움을 드릴 수도 있을 것 같아요

쪽갈비먹고싶다
2024.01.04 18:49

오류 메세지 : CUDA error: an illegal memory access was encountered error when inference
GPU : RTX4070
배치 사이즈 : 64

코드는 이번에 대학 대항전 Baseline을 그래도 돌려봤습니다.

쪽갈비먹고싶다
2024.01.04 18:50

class BaseModel(nn.Module):
    def __init__(self):
        super(BaseModel, self).__init__()
        # Contraction path
        self.conv1 = ConvBlock(3, 16)
        self.pool1 = nn.MaxPool2d(2)
        self.conv2 = ConvBlock(16, 32)
        self.pool2 = nn.MaxPool2d(2)
        self.conv3 = ConvBlock(32, 64)
        self.pool3 = nn.MaxPool2d(2)
        self.conv4 = ConvBlock(64, 128)
        self.pool4 = nn.MaxPool2d(2)
        self.conv5 = ConvBlock(128, 256)

        # Expansion path
        self.up6 = DeconvBlock(256, 128, 128)
        self.up7 = DeconvBlock(128, 64, 64)
        self.up8 = DeconvBlock(64, 32, 32)
        self.up9 = DeconvBlock(32, 16, 16)

        self.final_pool = nn.MaxPool2d(2)
        self.final_conv = nn.Conv2d(16, 16, kernel_size=28, stride=28)
        self.final_bn = nn.BatchNorm2d(16)

   

쪽갈비먹고싶다
2024.01.04 18:50

 def forward(self, x):
        # Contraction path
        x1 = self.conv1(x)
        x = self.pool1(x1)
        x2 = self.conv2(x)
        x = self.pool2(x2)
        x3 = self.conv3(x)
        x = self.pool3(x3)
        x4 = self.conv4(x)
        x = self.pool4(x4)
        x5 = self.conv5(x)

        # Expansion path
        x = self.up6(x5, x4)
        x = self.up7(x, x3)
        x = self.up8(x, x2)
        x = self.up9(x, x1)

        x = self.final_pool(x)
        out = self.final_bn(self.final_conv(x)) # (B,16,4,4)
        return out

NN_is_all_you_need
2024.01.08 18:00

대부분 Torch와 Cuda버전의 조합이 원인일 가능성이 높다고는 하는데
원인이 다양한 것 같습니다.
우선 배치 사이즈를 줄여보시고, torch와 cuda 버전의 조합도 조절해서 해결했다는 이야기가 많네요.

쪽갈비먹고싶다
2024.01.12 13:31

정말 감사합니다.
torch와 cuda버전의 조합도 이상했지만 결국에는 그래픽카드 고장이었습니다...
다시 한번 감사드립니다

의상이의면도날
2024.01.04 15:25

에러 메시지를 공유해주시면 더 자세히 볼 수 있을 것 같습니다!