
이전에는 마르코프 결정 과정 (MDF : Markov Decision Process)을 통해 강화학습의 문제가 결국 "행동을 선택하는 최적의 정책" π*을 찾는 것이라고 어렴풋이 알게 되었다. 마르코프과정 정리 내용☜ 하지만, π*는 정해진 해가 없기 때문에 특정 알고리즘을 통해 최적해를 찾아가야하는 문제가 남아있다. 동적계획법(DP : Dynamic Programming)은 마르코프 결정 과정에서 최적의 정책을 찾기 위한 문제풀이방법 중 하나이다, 동적계획법(DP : Dynamic Programming) => 복잡한문제를 작은문제로 쪼개서 답을 구하는 방법을 뜻한다 큼 음식을 한번에 먹는 것이 아니라, 그것을 1000조각을 내서 작은 음식을 1000번 먹으면 되는 것처럼 복잡한 문제를 한번에 해결하는 ..
IT/Machine learning
2022. 10. 3. 16:53
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- beautifulsoup
- json
- 비전공자
- 터틀트레이딩
- It
- 경영학
- requests
- 일자별
- 마케팅
- C#
- 시스템투자
- 심리학
- PYTHON
- Unity
- 스타트업
- 강화학습
- 크롤링
- 프로그래머스
- 기초
- IT기초
- 알고리즘
- 파이썬
- 머신러닝
- Anet
- 주식투자
- ET5X
- 가격데이터
- 랜덤맵
- 주식
- 유니티
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
글 보관함
250x250