본문 바로가기
728x90
[PyTorch] 주요 개념 PyTorch는 페이스북의 AI 연구팀에서 개발한 오픈 소스 딥러닝 프레임워크로, 특히 연구와 개발 환경에서 많이 사용됩니다. PyTorch는 텐서 계산 및 동적 계산 그래프를 기반으로 하며, 이를 통해 복잡한 모델을 쉽게 설계하고 디버깅할 수 있습니다. PyTorch의 핵심 개념과 기능을 소개하겠습니다.1. 텐서(Tensor)텐서는 PyTorch의 기본 데이터 구조입니다. 텐서는 N차원의 배열로, 수학적 연산을 수행하는 데 사용됩니다.텐서는 torch.Tensor 클래스를 사용하여 생성할 수 있습니다. 예를 들어, 2x3 행렬을 생성하려면 다음과 같습니다.import torchx = torch.Tensor([[1, 2, 3], [4, 5, 6]])2. 자동 미분(Autograd)Autograd는 PyT.. 2024. 6. 8.
[CV] U-Net [출처]: U-Net: Convolutional Networks for Biomedical Image Segmentation U-Net: 생의학 이미지 분할을 위한 컨볼루션 네트워크저자:Olaf Ronneberger, Philipp Fischer, Thomas Brox독일 프라이부르크 대학교요약:이 논문은 생의학 이미지 분할을 위한 컨볼루션 네트워크 구조와 훈련 전략을 소개합니다. 주요 특징은 다음과 같습니다:주석이 달린 샘플을 효율적으로 사용하기 위한 데이터 증강.맥락을 포착하는 수축 경로와 정밀한 위치 지정이 가능한 확장 경로를 가진 대칭 아키텍처.몇 개의 이미지로부터 엔드 투 엔드로 훈련 가능, 이전 방법보다 뛰어난 성능.빠른 분할 능력 (최근 GPU에서 512x512 이미지 분할이 1초 이내).구.. 2024. 6. 7.
[CV] CvT [출처] CvT: Introducing Convolutions to Vision Transformers [출처]: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 요약논문 제목: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale저자: Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly.. 2024. 6. 7.
[CV] YOLO [출처]: You Only Look Once: Unified, Real-Time Object Detection 제공된 문서는 객체 탐지를 위한 새로운 접근법인 YOLO(You Only Look Once)에 대해 설명합니다. 주요 요점을 요약하면 다음과 같습니다:개요:YOLO는 객체 탐지를 단일 회귀 문제로 재정의하여, 단일 신경망을 통해 전체 이미지에서 한 번의 평가로 바운딩 박스와 클래스 확률을 직접 예측합니다.이 통합 아키텍처는 전체 탐지 파이프라인을 탐지 성능에 맞게 끝에서 끝으로 최적화할 수 있게 합니다.성능:YOLO는 매우 빠르며, 기본 모델로 초당 45 프레임(fps), Fast YOLO 버전으로는 초당 155 프레임을 실시간으로 처리할 수 있습니다.YOLO는 최첨단 시스템에 비해 위치 오류가.. 2024. 6. 7.
[CV] SSD [출처]: SSD: Single Shot MultiBox Detector "SSD: Single Shot MultiBox Detector" 요약이 논문은 SSD(Single Shot MultiBox Detector)라는 방법을 소개합니다. 이 방법은 단일 딥 뉴럴 네트워크를 사용하여 이미지에서 객체를 탐지합니다. SSD는 경계 상자의 출력 공간을 각 특징 맵 위치에서 다양한 종횡비와 크기의 기본 상자로 이산화합니다. 예측 시, 네트워크는 각 기본 상자에 대해 각 객체 범주의 존재 여부를 점수화하고, 객체 모양에 더 잘 맞도록 상자를 조정합니다. SSD는 다양한 해상도의 여러 특징 맵에서 예측을 결합하여 다양한 크기의 객체를 자연스럽게 처리합니다.SSD의 주요 장점:제안 생성 및 이후의 픽셀 또는 특징 재.. 2024. 6. 7.
[CV] Faster R-CNN [출처]: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks" 문서는 Region Proposal Networks (RPN)와 Fast R-CNN을 통합한 고급 객체 탐지 프레임워크를 소개합니다. 주요 내용을 요약하면 다음과 같습니다:초록 (Abstract):최신 객체 탐지 네트워크는 객체 위치를 가정하기 위해 영역 제안 알고리즘을 사용합니다.Faster R-CNN은 탐지 네트워크와 컨볼루션 특징을 공유하는 Region Proposal Network (RPN)를 도입하여 영.. 2024. 6. 7.
[CV] Fast R-CNN [출처]: Fast R-CNN Fast R-CNN 요약Fast R-CNN 개요목적: 심층 컨벌루션 신경망을 사용한 효율적인 객체 탐지 방법 제안.혁신: 이전 방법(R-CNN, SPPnet)보다 속도와 정확도 향상.성능: VGG16 네트워크를 R-CNN보다 9배 빠르게 학습하고, 테스트 시 213배 더 빠름. PASCAL VOC 2012에서 더 높은 평균 정밀도(mAP) 달성.배경 및 문제점객체 탐지의 복잡성: 이미지에서 객체를 정확히 위치 지정하고 분류해야 하므로 복잡하고 느린 다단계 학습 파이프라인이 필요.R-CNN 단점: 느린 학습 및 테스트, 공간과 시간 소모가 크며, 여러 단계를 거쳐야 함(ConvNet 미세 조정, SVM 적합, 바운딩 박스 회귀자 학습).Fast R-CNN 기여단일 단계 학습:.. 2024. 6. 7.
[CV] R-CNN [출처]: Rich feature hierarchies for accurate object detection and semantic segmentation 논문 요약: "Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation"저자: Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik소속: UC Berkeley초록: 이 논문은 PASCAL VOC 데이터셋에서 객체 검출 성능이 정체된 문제를 해결하기 위해, 평균 정확도(mAP)를 30% 이상 향상시키는 간단하고 확장 가능한 알고리즘을 소개합니다. 제안된 방법은 VOC 2012에서 53.3%의 mAP를 달성했습니다... 2024. 6. 7.
[CV] Grad-CAM [출처]: Grad-CAM: Visual Explanation from Deep Networks via Gradient-based Localization 논문 요약: Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization저자Ramprasaath R. SelvarajuMichael CogswellAbhishek DasRamakrishna VedantamDevi ParikhDhruv Batra논문 개요이 논문은 Grad-CAM (Gradient-weighted Class Activation Mapping)이라는 기법을 제안하여, CNN 기반 모델의 결정을 시각적으로 설명할 수 있도록 하는 기술을 소개합니다. Grad-C.. 2024. 6. 7.
[CV] DenseNet [출처]: Densely Connected Convolutional Networks  요약: Densely Connected Convolutional Networks (DenseNet)개요DenseNet은 모든 레이어를 피드포워드 방식으로 서로 연결하여 정보 흐름을 최적화하는 네트워크 아키텍처입니다. 전통적인 컨볼루션 네트워크는 각 레이어 간 하나의 연결을 가지지만, DenseNet은 L(L+1)/2개의 직접 연결을 가집니다. 이러한 구조는 정보 손실을 줄이고, 특징 재사용을 촉진하며, 파라미터 수를 크게 줄이는 등의 장점이 있습니다. DenseNet은 CIFAR-10, CIFAR-100, SVHN, ImageNet과 같은 객체 인식 벤치마크에서 탁월한 성능을 보였습니다​​ .소개컨볼루션 신경망(CNN).. 2024. 6. 7.
반응형