'벨만기대방정식' 태그의 글 목록

[강화학습] 최적의 행동은 어떻게 찾을까? _ 동적계획법 (feat 정책반복)

이전에는 마르코프 결정 과정 (MDF : Markov Decision Process)을 통해 강화학습의 문제가 결국 "행동을 선택하는 최적의 정책" π*을 찾는 것이라고 어렴풋이 알게 되었다. 마르코프과정 정리 내용☜ 하지만, π*는 정해진 해가 없기 때문에 특정 알고리즘을 통해 최적해를 찾아가야하는 문제가 남아있다. 동적계획법(DP : Dynamic Programming)은 마르코프 결정 과정에서 최적의 정책을 찾기 위한 문제풀이방법 중 하나이다, 동적계획법(DP : Dynamic Programming) => 복잡한문제를 작은문제로 쪼개서 답을 구하는 방법을 뜻한다 큼 음식을 한번에 먹는 것이 아니라, 그것을 1000조각을 내서 작은 음식을 1000번 먹으면 되는 것처럼 복잡한 문제를 한번에 해결하는 ..

IT/Machine learning 2022. 10. 3. 16:53

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

글 보관함

250x250

Doitman

티스토리툴바