[Object Detection] 3) YOLOv1 논문 리뷰

2022.03.07 18:34 12,301 Views

안녕하세요. jihyeheo입니다 :)

오늘은 YOLOv1 논문 리뷰를 해보겠습니다.

You Once Look Once : Unified, Real-Time Object Detection : https://arxiv.org/pdf/1506.02640.pdf

* 본 포스팅은 데이콘 서포터즈 "데이크루 1기" 활동의 일환입니다.

------------------------------------------------------------------------------------------------------------------------------------

1-stage Detector vs 2-stage Detector

저번 OD(Object Detection) 설명 게시글(https://dacon.io/forum/405806)에서 Detector의 종류를 두 가지로 나눌 수 있다고 했었습니다.

위 사진은 2-stage Detector입니다. 사진을 살펴보면 Localization과 Classification 두 가지를 순차적으로 수행하는 Detector입니다.

이를 통해 정확도는 올라가지만 시간이 오래 걸립니다.

이러한 Detector의 단점을 잡아 한 번에 수행하는 Detector가 소개됩니다.

1-stage Detector의 대표적인 모형으로 YOLO 시리즈가 있습니다.

YOLOv1은 Single Convolutional Network로 이미지를 입력받아 여러 개의 bounding box와 각 box의 class를 예측합니다.

그리고 non-max suppression을 통해 최종 bounding box를 선정합니다.

논문에 나와있는 YOLO 시스템입니다.

두 문제를 한꺼번에 처리하기 때문에 속도는 빠르지만 정확도 면에서 떨어집니다. 속도와 정확도는 trade-off 관계입니다.

YOLOv1 장점

1) 매우 빠르다.

YOLO는 image에 NN(Neural Network)를 실행하기만 하면 됩니다.

2) Fast R-CNN보다 background error가 두 배 이상 적다.

background error란?

배경 이미지에 객체가 있다고 탐지한 것을 의미합니다. 즉, background error가 작아야 배경 이미지를 배경이라고 정확하게 인식을 한 거 겠죠?

이를 어떻게 줄였냐고 하면 사용 방식을 이야기 할 수 있습니다. YOLO를 예측할 때는 이미지 전체를 이용합니다. 반면, Fast R-CNN 같은 경우 이미지를 잘게 쪼개는 Selective Search 알고리즘을 이용하여 제안된 영역을 사용합니다. 이를 통해 배경을 객체로 탐지하는 실수를 하게 됩니다.

사진을 보면 background error가 Fast R-CNN에서는 13.6%였는데 4.75%로 줄었다는 것을 알 수 있습니다.

3) 객체의 일반화된 representations를 학습하여 다른 도메인에서 좋은 성능을 보입니다.

전체 이미지에 대하여 학습을 하기 때문에 새로운 도메인에 잘 적응하여 다른 결과도 잘 나올 수 있게 합니다.

Bounding Box prediction 방식

동작 방식은 다음과 같습니다.

1) 입력 이미지를 S x S grid로 분할합니다.

2) 객체의 중심이 grid cell에 맞으면 grid는 객체를 탐지했다고 표기합니다.

3) 각 grid cell은 B개의 Bounding box와 각 bounding box에 대한 confidence score를 예측합니다.

confidence score란?

특정 Bounding Box안에 있는 객체가 어떤 물체의 class일 확률과 IoU를 곱한 값, 즉 각 Bounding Box 안에 물체가 있을 확률을 의미합니다.

각 Bounding Box는 x,y,w,h,confidence를 가지고 있습니다. x,y는 Bounding Box의 중심이며 w,h는 높이와 넓이입니다.

4) 각 grid cell은 Bounding Box 외에도 class 확률을 예측합니다.

5) non-max suppression을 거쳐 최종 Bounding Box를 선정합니다.

Non-Max Suppression(NMS)이란?

Detector가 예측한 Bounding Box중에서 가장 정확한 Bounding Box를 선택하는 기법입니다.

다음과 같이 NMS를 적용하면 Bounding Box가 하나만 남아있는 것을 확인할 수 있습니다.

YOLO v1 구조

YOLO v1의 구조는 다음과 같습니다.

24개의 Convolutional Layer와 2개의 Fully Connected Layer, 그리고 GoogleNet에서 가져온 아이디어 1x1 차원 감소 layer, 그 후 3x3 Convolutional Layer를 이용하여 마지막 7x7x30의 출력값을 결과로 가져옵니다.

이를 DarkNet이라고 합니다. 위 모형은 ImageNet 데이터셋을 통해 학습시켰습니다.