[강화학습] 강화학습 이론_비동기적 동적계획법
오늘 배울내용 이전에 알아야할 내용은 다음과 같다. 마르코프 결정 과정과 벨만 방정식 마르코프 결정 과정의 해를 구하는 방법 : 동적계획법 동적계획법으로 최적의 행동 정책π을 구하는 과정에서 While문을 두번 사용해야 한다 정책평가 할 때 정책반복 할 때 이것을 하나로 줄일 수 있는 방법이 있는데, 가치 반복 (VI : Value Iteration)이다. 가치반복 (VI : Value Iteration) 개념은 간단하다. 이전에는 정책평가(PE)에서 평균값에 수렴시켰다면, 가치반복에서는 가치값을 최대값으로 수렴시켰다는 점이다. 근데 여기서 한가지 문제점이 발생하게 되는데 최적값을 찾는 과정에서 원래 정책개선에 포함되어 있던 "불필요한 행동 제거"가 없어지게 되기 때문에 계속 전체 경우의 수를 모두 고려..
IT/Machine learning
2022. 10. 3. 17:23
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 비전공자
- 터틀트레이딩
- 스타트업
- 시스템투자
- Unity
- ET5X
- 크롤링
- requests
- json
- Anet
- 경영학
- IT기초
- 랜덤맵
- 주식투자
- 머신러닝
- 가격데이터
- It
- beautifulsoup
- C#
- 알고리즘
- 심리학
- 주식
- 유니티
- 파이썬
- 강화학습
- 프로그래머스
- 마케팅
- 사진크롤링
- 일자별
- PYTHON
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함