본문 바로가기
AI 논문/Computer Vision

[CV] YOLO v2

by cogito21_python 2024. 6. 7.
반응형

[출처]: YOLO9000: Better, Faster, Stronger

yolov2.pdf
5.01MB


YOLO9000은 실시간으로 9000개 이상의 객체를 인식할 수 있는 최첨단 객체 검출 시스템입니다. 주요 특징과 개선 사항은 다음과 같습니다:

  1. YOLOv2 개선 사항:
    • 배치 정규화: 수렴 속도를 높이고 과적합을 방지.
    • 고해상도 분류기: 더 높은 해상도의 입력 이미지를 사용하여 정확도 향상.
    • 앵커 박스 사용: 앵커 박스를 사용하여 예측을 단순화하고 재현율을 높임.
    • 차원 클러스터링: K-평균 클러스터링을 사용하여 더 나은 앵커 박스 초기값 설정.
    • 직접 위치 예측: 예측 안정성을 높임.
    • 세분화된 특징 사용: 작은 객체의 위치를 더 정확하게 잡아냄.
    • 멀티스케일 학습: 다양한 해상도에서 예측을 잘할 수 있도록 함.
  2. 성능:
    • PASCAL VOC와 COCO와 같은 표준 데이터셋에서 뛰어난 성능을 발휘.
    • 다양한 속도에서 높은 평균 정확도(mAP)를 달성.
  3. 공동 학습:
    • 객체 검출과 분류를 동시에 학습하여 COCO와 ImageNet 데이터셋을 결합.
    • 라벨이 없는 객체 카테고리도 예측할 수 있는 능력.
  4. Darknet-19:
    • 속도와 정확성에 최적화된 19개의 컨볼루션 레이어와 5개의 맥스풀 레이어로 구성된 분류 모델.

YOLO9000은 다양한 데이터셋을 활용하고, 멀티스케일 학습 및 공동 학습 기법을 통해 실시간으로 광범위한 객체를 인식할 수 있는 강력한 시스템입니다.


YOLO9000 is a state-of-the-art, real-time object detection system capable of recognizing over 9000 object categories. Key features and improvements include:

  1. YOLOv2 Enhancements:
    • Batch Normalization: Improves convergence speed and prevents overfitting.
    • High-Resolution Classifier: Uses higher resolution input images to enhance accuracy.
    • Anchor Boxes: Simplifies prediction and increases recall by using anchor boxes.
    • Dimension Clustering: Uses K-means clustering for better initial anchor box dimensions.
    • Direct Location Prediction: Improves prediction stability.
    • Fine-Grained Features: Enhances localization of small objects.
    • Multi-Scale Training: Allows the model to perform well at various resolutions.
  2. Performance:
    • Excels on standard datasets like PASCAL VOC and COCO.
    • Achieves high mean average precision (mAP) at various speeds.
  3. Joint Training:
    • Simultaneously trains on object detection and classification, combining COCO and ImageNet datasets.
    • Can predict detections for unlabeled object categories.
  4. Darknet-19:
    • A classification model with 19 convolutional layers and 5 maxpooling layers, optimized for speed and accuracy.

YOLO9000 leverages multi-scale training and joint optimization techniques to create a robust and versatile real-time object detection system capable of handling a wide variety of object categories using diverse datasets.


 

반응형

'AI 논문 > Computer Vision' 카테고리의 다른 글

[CV] CvT  (1) 2024.06.07
[CV] Deformable Convolutional Networks  (0) 2024.06.07
[CV] YOLO  (1) 2024.06.07
[CV] Cascade R-CNN  (0) 2024.06.07
[CV] EfficientDet  (0) 2024.06.07