본문 바로가기
반응형
[CV] EfficientNet [출처]: EfficientNet: Rethinking Model Scaling for Convolutional Neural NetworksEfficientNet: 합성곱 신경망의 모델 확장을 재고하다저자: Mingxing Tan, Quoc V. Le초록: EfficientNet은 합성곱 신경망(ConvNet)의 깊이, 너비, 해상도를 복합 계수를 사용하여 균형 있게 확장하는 새로운 방법을 제안합니다. 저자들은 모델 확장을 체계적으로 연구하고, 모든 차원을 균일하게 확장함으로써 더 나은 성능을 달성할 수 있음을 보여줍니다. 그들은 신경망 아키텍처 검색을 통해 새로운 기본 네트워크 EfficientNet을 설계하고, 이를 확장하여 이전의 ConvNet보다 더 나은 정확도와 효율성을 가진 모델들을 얻습니다... 2024. 6. 7.
[CV] RetinaNet [출처]: Focal Loss for Dense Object DetectionRetinaNet 요약저자: Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollar소속: Facebook AI Research (FAIR)초록이 논문은 COCO 벤치마크에서 최첨단 정확도를 달성하는 1단계 객체 탐지기인 RetinaNet을 소개합니다. 주요 혁신은 Focal Loss로, 이는 훈련 중에 발생하는 극단적인 전경-배경 클래스 불균형 문제를 해결하기 위해 설계되었습니다.소개현재 최첨단 객체 탐지기는 2단계 접근 방식(예: R-CNN)에 의존합니다. 1단계 탐지기는 더 빠르고 단순하지만 정확도에서 뒤처져 왔습니다. 이 논문은 클래스 불균형을 주요 문제로 식.. 2024. 6. 7.
[CV] SSD [출처]: SSD: Single Shot MultiBox Detector "SSD: Single Shot MultiBox Detector" 요약이 논문은 SSD(Single Shot MultiBox Detector)라는 방법을 소개합니다. 이 방법은 단일 딥 뉴럴 네트워크를 사용하여 이미지에서 객체를 탐지합니다. SSD는 경계 상자의 출력 공간을 각 특징 맵 위치에서 다양한 종횡비와 크기의 기본 상자로 이산화합니다. 예측 시, 네트워크는 각 기본 상자에 대해 각 객체 범주의 존재 여부를 점수화하고, 객체 모양에 더 잘 맞도록 상자를 조정합니다. SSD는 다양한 해상도의 여러 특징 맵에서 예측을 결합하여 다양한 크기의 객체를 자연스럽게 처리합니다.SSD의 주요 장점:제안 생성 및 이후의 픽셀 또는 특징 재.. 2024. 6. 7.
[CV] SPPNet [출처]: Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition요약: Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition소개문제점: 기존의 심층 합성곱 신경망(CNN)은 고정된 크기의 입력 이미지를 필요로 하며, 이는 다양한 크기와 비율의 이미지를 처리하는 데 제한이 있다. 이를 해결하기 위해 이미지의 크기를 자르거나 왜곡하여 고정된 크기로 맞추지만, 이는 인식 정확도를 떨어뜨릴 수 있다.해결책: 공간 피라미드 풀링(SPP) 레이어를 도입하여 고정 크기의 입력 제약을 제거하고, 다양한 크기와 비율의 이미지를 처리할 수 있는 SPP-n.. 2024. 6. 7.
[CV] FPN [출처]: Feature Pyramid Networks for Object Detection  문서는 Feature Pyramid Networks(FPN)와 이들의 객체 탐지 및 분할에 대한 응용에 대해 다루고 있습니다. 주요 내용을 요약하면 다음과 같습니다:Feature Pyramids 소개:전통적인 이미지 피라미드는 메모리 제약과 훈련 및 테스트 간의 불일치로 인해 엔드 투 엔드 훈련에 적합하지 않습니다.ConvNet의 내재된 다중 스케일, 피라미드형 특징 계층을 활용하여 다중 스케일 특징 표현을 할 수 있습니다.Single Shot Detector(SSD):SSD는 ConvNet의 특징 계층을 사용하지만 작은 객체를 탐지하는 데 중요한 고해상도 맵을 재사용하지 못합니다.Feature Pyramid .. 2024. 6. 7.
[CV] Faster R-CNN [출처]: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks" 문서는 Region Proposal Networks (RPN)와 Fast R-CNN을 통합한 고급 객체 탐지 프레임워크를 소개합니다. 주요 내용을 요약하면 다음과 같습니다:초록 (Abstract):최신 객체 탐지 네트워크는 객체 위치를 가정하기 위해 영역 제안 알고리즘을 사용합니다.Faster R-CNN은 탐지 네트워크와 컨볼루션 특징을 공유하는 Region Proposal Network (RPN)를 도입하여 영.. 2024. 6. 7.
[Daily English] Day5: Occupation 이번 주 주제는 "직업 (Occupation)"입니다. 따라서 주간 학습 내용을 복습하고 테스트하는 시간을 가지겠습니다.금요일 (종합 복습)활동:이번 주에 배운 단어와 표현 복습직업에 관한 퀴즈 풀기새로운 단어 정의하기직업 소개 글 요약하기단어 복습다음 단어들을 다시 한 번 읽고 뜻을 기억해보세요:Career: An occupation undertaken for a significant period of a person's life and with opportunities for progress.Fulfilling: Making someone feel satisfied or happy because of fully developing their character or abilities.Financial .. 2024. 6. 7.
[CV] Fast R-CNN [출처]: Fast R-CNN Fast R-CNN 요약Fast R-CNN 개요목적: 심층 컨벌루션 신경망을 사용한 효율적인 객체 탐지 방법 제안.혁신: 이전 방법(R-CNN, SPPnet)보다 속도와 정확도 향상.성능: VGG16 네트워크를 R-CNN보다 9배 빠르게 학습하고, 테스트 시 213배 더 빠름. PASCAL VOC 2012에서 더 높은 평균 정밀도(mAP) 달성.배경 및 문제점객체 탐지의 복잡성: 이미지에서 객체를 정확히 위치 지정하고 분류해야 하므로 복잡하고 느린 다단계 학습 파이프라인이 필요.R-CNN 단점: 느린 학습 및 테스트, 공간과 시간 소모가 크며, 여러 단계를 거쳐야 함(ConvNet 미세 조정, SVM 적합, 바운딩 박스 회귀자 학습).Fast R-CNN 기여단일 단계 학습:.. 2024. 6. 7.
[CV] R-CNN [출처]: Rich feature hierarchies for accurate object detection and semantic segmentation 논문 요약: "Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation"저자: Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik소속: UC Berkeley초록: 이 논문은 PASCAL VOC 데이터셋에서 객체 검출 성능이 정체된 문제를 해결하기 위해, 평균 정확도(mAP)를 30% 이상 향상시키는 간단하고 확장 가능한 알고리즘을 소개합니다. 제안된 방법은 VOC 2012에서 53.3%의 mAP를 달성했습니다... 2024. 6. 7.
[CV] Grad-CAM++ [출처]: Grad-CAM++: Improved Visual Explanations for Deep Convolutional Networks논문 요약: Grad-CAM++: Improved Visual Explanations for Deep Convolutional Networks개요Grad-CAM++는 기존 Grad-CAM 기법을 확장하여 CNN 모델의 예측에 대한 시각적 설명을 제공하는 방법입니다. 이 논문은 Grad-CAM++가 객체의 위치를 더 잘 파악하고 하나의 이미지에 여러 객체 인스턴스가 있을 때 더 나은 설명을 제공한다고 주장합니다.주요 기여픽셀 단위 가중치: Grad-CAM++는 CNN의 마지막 합성곱 층의 피쳐 맵에서 각 픽셀의 중요성을 평가하여 시각적 설명을 생성합니다. 이를 위해 고.. 2024. 6. 7.
반응형