'비동기적' 태그의 글 목록

오늘 배울내용 이전에 알아야할 내용은 다음과 같다. 마르코프 결정 과정과 벨만 방정식 마르코프 결정 과정의 해를 구하는 방법 : 동적계획법 동적계획법으로 최적의 행동 정책π을 구하는 과정에서 While문을 두번 사용해야 한다 정책평가 할 때 정책반복 할 때 이것을 하나로 줄일 수 있는 방법이 있는데, 가치 반복 (VI : Value Iteration)이다. 가치반복 (VI : Value Iteration) 개념은 간단하다. 이전에는 정책평가(PE)에서 평균값에 수렴시켰다면, 가치반복에서는 가치값을 최대값으로 수렴시켰다는 점이다. 근데 여기서 한가지 문제점이 발생하게 되는데 최적값을 찾는 과정에서 원래 정책개선에 포함되어 있던 "불필요한 행동 제거"가 없어지게 되기 때문에 계속 전체 경우의 수를 모두 고려..

IT/Machine learning 2022. 10. 3. 17:23

이전 1 다음