[강화학습] 강화학습관련 수학이론_마르코프 결정 과정(MDP)
이 글은 그냥 개인적으로 공부한 내용을 정리할 목적으로 작성이 되었습니다 ㅎㅎ 마르코프 결정과정 (MDP) 관련 학습 내용 마르코프 연쇄 (Markov Chain) 마르코프 보상과정 (Markov Reward Process) 마르코프 결정과정 (Markov Decision Process) 마르코프의 특성 현재 상태에는 과거의 모든 정보가 포함되어 있다. 현재 상태를 알면 과거와 무관하게 미래상태를 예측할 수 있다. 마르코프 연쇄와 상태 변이 행렬(State Transition Matrix) 특정 상태에서 다른 상태로 변이될 확률을 표현한 행렬 집 학교 학원 PC방 치킨 분식 피자 운동 만화 잠 집 0.6 0.3 0.1 학교 0.3 0.4 0.3 학원 0.1 0.2 0.2 0.5 PC방 0.2 0.8 치킨..
IT/Machine learning
2022. 9. 30. 17:54
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- C#
- 머신러닝
- beautifulsoup
- 유니티
- 경영학
- 주식
- 랜덤맵
- Anet
- 비전공자
- 주식투자
- 심리학
- json
- 가격데이터
- 스타트업
- 파이썬
- 알고리즘
- 사진크롤링
- 강화학습
- 시스템투자
- It
- 크롤링
- PYTHON
- IT기초
- ET5X
- 터틀트레이딩
- requests
- 프로그래머스
- 일자별
- 마케팅
- Unity
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함