본문 바로가기
인공지능(세부주제)/강화학습

[강화학습] 강화학습 커리큘럼

by cogito21_python 2024. 6. 5.
반응형

강화학습 (Reinforcement Learning) 강의 계획안

강의 목표

  • 강화학습의 기본 개념과 원리 이해
  • 주요 강화학습 알고리즘 학습
  • 강화학습을 사용하여 실제 문제 해결 경험

강의 기간: 12주 (주 1회, 회당 2시간)

 

강의 일정 및 내용

주차주제내용실습/과제

1주차 강화학습 개요 강화학습의 기본 개념 및 응용 분야 강화학습 개념 요약
2주차 MDP와 기본 원리 마코프 결정 과정(MDP)와 기본 원리 이해 MDP 모델링 실습
3주차 가치 함수와 벨만 방정식 가치 함수, 벨만 방정식 및 최적 정책 벨만 방정식 구현
4주차 동적 프로그래밍 정책 반복, 가치 반복 정책 반복 및 가치 반복 구현
5주차 몬테카를로 방법 몬테카를로 예측, 제어 방법 몬테카를로 방법 실습
6주차 시간차 학습 TD(0), Sarsa, Q-learning TD 학습 알고리즘 구현
7주차 정책 기반 방법 REINFORCE 알고리즘, 액터-크리틱 방법 정책 기반 알고리즘 구현
8주차 심층 강화학습 개요 심층 Q-네트워크(DQN), 주요 개념 DQN 구현 실습
9주차 심층 강화학습 심화 이중 DQN, 우선순위 경험 재생 심화된 DQN 구현
10주차 정책 최적화 A3C, PPO, TRPO 정책 최적화 알고리즘 구현
11주차 최신 연구 동향 최신 강화학습 연구 논문 리뷰 논문 요약 및 토론
12주차 프로젝트 발표 및 피드백 프로젝트 발표 및 피드백 프로젝트 보고서 제출
반응형