본문 바로가기
반응형
[CV] SPPNet [출처]: Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition요약: Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition소개문제점: 기존의 심층 합성곱 신경망(CNN)은 고정된 크기의 입력 이미지를 필요로 하며, 이는 다양한 크기와 비율의 이미지를 처리하는 데 제한이 있다. 이를 해결하기 위해 이미지의 크기를 자르거나 왜곡하여 고정된 크기로 맞추지만, 이는 인식 정확도를 떨어뜨릴 수 있다.해결책: 공간 피라미드 풀링(SPP) 레이어를 도입하여 고정 크기의 입력 제약을 제거하고, 다양한 크기와 비율의 이미지를 처리할 수 있는 SPP-n.. 2024. 6. 7.
[CV] FPN [출처]: Feature Pyramid Networks for Object Detection  문서는 Feature Pyramid Networks(FPN)와 이들의 객체 탐지 및 분할에 대한 응용에 대해 다루고 있습니다. 주요 내용을 요약하면 다음과 같습니다:Feature Pyramids 소개:전통적인 이미지 피라미드는 메모리 제약과 훈련 및 테스트 간의 불일치로 인해 엔드 투 엔드 훈련에 적합하지 않습니다.ConvNet의 내재된 다중 스케일, 피라미드형 특징 계층을 활용하여 다중 스케일 특징 표현을 할 수 있습니다.Single Shot Detector(SSD):SSD는 ConvNet의 특징 계층을 사용하지만 작은 객체를 탐지하는 데 중요한 고해상도 맵을 재사용하지 못합니다.Feature Pyramid .. 2024. 6. 7.
[CV] Faster R-CNN [출처]: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks" 문서는 Region Proposal Networks (RPN)와 Fast R-CNN을 통합한 고급 객체 탐지 프레임워크를 소개합니다. 주요 내용을 요약하면 다음과 같습니다:초록 (Abstract):최신 객체 탐지 네트워크는 객체 위치를 가정하기 위해 영역 제안 알고리즘을 사용합니다.Faster R-CNN은 탐지 네트워크와 컨볼루션 특징을 공유하는 Region Proposal Network (RPN)를 도입하여 영.. 2024. 6. 7.
[CV] Fast R-CNN [출처]: Fast R-CNN Fast R-CNN 요약Fast R-CNN 개요목적: 심층 컨벌루션 신경망을 사용한 효율적인 객체 탐지 방법 제안.혁신: 이전 방법(R-CNN, SPPnet)보다 속도와 정확도 향상.성능: VGG16 네트워크를 R-CNN보다 9배 빠르게 학습하고, 테스트 시 213배 더 빠름. PASCAL VOC 2012에서 더 높은 평균 정밀도(mAP) 달성.배경 및 문제점객체 탐지의 복잡성: 이미지에서 객체를 정확히 위치 지정하고 분류해야 하므로 복잡하고 느린 다단계 학습 파이프라인이 필요.R-CNN 단점: 느린 학습 및 테스트, 공간과 시간 소모가 크며, 여러 단계를 거쳐야 함(ConvNet 미세 조정, SVM 적합, 바운딩 박스 회귀자 학습).Fast R-CNN 기여단일 단계 학습:.. 2024. 6. 7.
[CV] R-CNN [출처]: Rich feature hierarchies for accurate object detection and semantic segmentation 논문 요약: "Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation"저자: Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik소속: UC Berkeley초록: 이 논문은 PASCAL VOC 데이터셋에서 객체 검출 성능이 정체된 문제를 해결하기 위해, 평균 정확도(mAP)를 30% 이상 향상시키는 간단하고 확장 가능한 알고리즘을 소개합니다. 제안된 방법은 VOC 2012에서 53.3%의 mAP를 달성했습니다... 2024. 6. 7.
[CV] Grad-CAM++ [출처]: Grad-CAM++: Improved Visual Explanations for Deep Convolutional Networks논문 요약: Grad-CAM++: Improved Visual Explanations for Deep Convolutional Networks개요Grad-CAM++는 기존 Grad-CAM 기법을 확장하여 CNN 모델의 예측에 대한 시각적 설명을 제공하는 방법입니다. 이 논문은 Grad-CAM++가 객체의 위치를 더 잘 파악하고 하나의 이미지에 여러 객체 인스턴스가 있을 때 더 나은 설명을 제공한다고 주장합니다.주요 기여픽셀 단위 가중치: Grad-CAM++는 CNN의 마지막 합성곱 층의 피쳐 맵에서 각 픽셀의 중요성을 평가하여 시각적 설명을 생성합니다. 이를 위해 고.. 2024. 6. 7.
[CV] Grad-CAM [출처]: Grad-CAM: Visual Explanation from Deep Networks via Gradient-based Localization 논문 요약: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization저자Ramprasaath R. SelvarajuMichael CogswellAbhishek DasRamakrishna VedantamDevi ParikhDhruv Batra논문 개요이 논문은 Grad-CAM (Gradient-weighted Class Activation Mapping)이라는 기법을 제안하여, CNN 기반 모델의 결정을 시각적으로 설명할 수 있도록 하는 기술을 소개합니다. Grad-C.. 2024. 6. 7.
[CV] CAM [출처]: Learning Deep Features for Discriminative Localization 논문 "학습된 깊은 특징들을 통한 판별적 지역화"는 Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, Antonio Torralba가 작성한 것으로, 이미지 수준의 레이블로 학습된 CNN(Convolutional Neural Network)이 전역 평균 풀링(GAP, Global Average Pooling)을 사용하여 놀라운 지역화 능력을 가지도록 하는 방법을 탐구합니다. 다음은 논문의 요약입니다:초록저자들은 전역 평균 풀링(GAP) 레이어를 재검토하고, 이것이 이미지 수준의 레이블로 학습되었음에도 불구하고 CNN이 놀라운 지역화 능력을 가지도록.. 2024. 6. 7.
[CV] DenseNet [출처]: Densely Connected Convolutional Networks  요약: Densely Connected Convolutional Networks (DenseNet)개요DenseNet은 모든 레이어를 피드포워드 방식으로 서로 연결하여 정보 흐름을 최적화하는 네트워크 아키텍처입니다. 전통적인 컨볼루션 네트워크는 각 레이어 간 하나의 연결을 가지지만, DenseNet은 L(L+1)/2개의 직접 연결을 가집니다. 이러한 구조는 정보 손실을 줄이고, 특징 재사용을 촉진하며, 파라미터 수를 크게 줄이는 등의 장점이 있습니다. DenseNet은 CIFAR-10, CIFAR-100, SVHN, ImageNet과 같은 객체 인식 벤치마크에서 탁월한 성능을 보였습니다​​ .소개컨볼루션 신경망(CNN).. 2024. 6. 7.
[CV] ResNet [출처]: Deep Residual Learning for Image Recognition "Deep Residual Learning for Image Recognition" 요약저자: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun (Microsoft Research)초록:깊은 신경망의 훈련 어려움을 해결합니다.층 입력을 참조하여 잔여 함수를 학습하도록 층을 재구성하는 잔여 학습 프레임워크를 소개합니다.잔여 네트워크(ResNets)가 최적화하기 더 쉽고 깊이가 증가함에 따라 정확도가 높아짐을 입증합니다.ImageNet 데이터셋에서 최대 152층의 잔여 네트워크를 평가하여 3.57%의 오류율로 최첨단 성능을 달성했습니다.COCO 객체 탐지 데이터셋에서도 깊은 표현.. 2024. 6. 7.
반응형