반응형
강화학습 (Reinforcement Learning) 강의 계획안
강의 목표
- 강화학습의 기본 개념과 원리 이해
- 주요 강화학습 알고리즘 학습
- 강화학습을 사용하여 실제 문제 해결 경험
강의 기간: 12주 (주 1회, 회당 2시간)
강의 일정 및 내용
주차주제내용실습/과제
1주차 | 강화학습 개요 | 강화학습의 기본 개념 및 응용 분야 | 강화학습 개념 요약 |
2주차 | MDP와 기본 원리 | 마코프 결정 과정(MDP)와 기본 원리 이해 | MDP 모델링 실습 |
3주차 | 가치 함수와 벨만 방정식 | 가치 함수, 벨만 방정식 및 최적 정책 | 벨만 방정식 구현 |
4주차 | 동적 프로그래밍 | 정책 반복, 가치 반복 | 정책 반복 및 가치 반복 구현 |
5주차 | 몬테카를로 방법 | 몬테카를로 예측, 제어 방법 | 몬테카를로 방법 실습 |
6주차 | 시간차 학습 | TD(0), Sarsa, Q-learning | TD 학습 알고리즘 구현 |
7주차 | 정책 기반 방법 | REINFORCE 알고리즘, 액터-크리틱 방법 | 정책 기반 알고리즘 구현 |
8주차 | 심층 강화학습 개요 | 심층 Q-네트워크(DQN), 주요 개념 | DQN 구현 실습 |
9주차 | 심층 강화학습 심화 | 이중 DQN, 우선순위 경험 재생 | 심화된 DQN 구현 |
10주차 | 정책 최적화 | A3C, PPO, TRPO | 정책 최적화 알고리즘 구현 |
11주차 | 최신 연구 동향 | 최신 강화학습 연구 논문 리뷰 | 논문 요약 및 토론 |
12주차 | 프로젝트 발표 및 피드백 | 프로젝트 발표 및 피드백 | 프로젝트 보고서 제출 |
반응형