
이전에 강화학습 이론은 우리가 환경에 대한 정보를 안다는 가정을 했었다. 환경이란, 상태의 종류 = S 행동의 종류 = A 행동을 했을 때의 보상 = R 이전에 배웠던 내용들 강화학습의 목표는 무엇일까? : 마르코프 결정 과정 최적의 행동은 어떻게 찾을까? : 동적계획법 (feat 정책반복) 저 효율적으로 최적 행동을 찾을 수는 없을까? : 비동기적 동적계획법 몬테카를로 등장 배경 동적계획법 아래에서 강화학습은 미로(환경)에 대한 정보가 주어지고 그 미로를 통과하기 위한 최적 루트를 찾는 것과 같다. 하지만, 통제된 환경이 아닌 현실세계에서 우리는 위와 같은 정보를 알수가 없다. 그래서 우리는 현재 환경에 대한 정보가 없을때에도 최적의 행동이 무엇인지 찾을 수 있어야 한다. 다시한번 강화학습의 목표와 방..
IT/Machine learning
2022. 10. 3. 18:29
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 가격데이터
- 일자별
- PYTHON
- 크롤링
- 시스템투자
- 주식
- 심리학
- 마케팅
- 파이썬
- 터틀트레이딩
- 주식투자
- 스타트업
- 머신러닝
- 경영학
- 기초
- ET5X
- requests
- Unity
- Anet
- It
- 유니티
- 강화학습
- beautifulsoup
- 랜덤맵
- C#
- 알고리즘
- json
- IT기초
- 비전공자
- 프로그래머스
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
글 보관함
250x250