[강화학습] 최적의 행동은 어떻게 찾을까? _ 동적계획법 (feat 정책반복)
이전에는 마르코프 결정 과정 (MDF : Markov Decision Process)을 통해 강화학습의 문제가 결국 "행동을 선택하는 최적의 정책" π*을 찾는 것이라고 어렴풋이 알게 되었다. 마르코프과정 정리 내용☜ 하지만, π*는 정해진 해가 없기 때문에 특정 알고리즘을 통해 최적해를 찾아가야하는 문제가 남아있다. 동적계획법(DP : Dynamic Programming)은 마르코프 결정 과정에서 최적의 정책을 찾기 위한 문제풀이방법 중 하나이다, 동적계획법(DP : Dynamic Programming) => 복잡한문제를 작은문제로 쪼개서 답을 구하는 방법을 뜻한다 큼 음식을 한번에 먹는 것이 아니라, 그것을 1000조각을 내서 작은 음식을 1000번 먹으면 되는 것처럼 복잡한 문제를 한번에 해결하는 ..
IT/Machine learning
2022. 10. 3. 16:53
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 심리학
- beautifulsoup
- 랜덤맵
- 강화학습
- 머신러닝
- C#
- PYTHON
- It
- ET5X
- 유니티
- Anet
- 스타트업
- 터틀트레이딩
- 크롤링
- 가격데이터
- 비전공자
- 주식
- requests
- 사진크롤링
- json
- IT기초
- 일자별
- 프로그래머스
- 시스템투자
- 주식투자
- Unity
- 경영학
- 파이썬
- 마케팅
- 알고리즘
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
글 보관함
250x250