코드를 짜다보면, 누구도 잘 설명해주지 않는 그리고 조금 하찮고(?) 기본적인 것으로 생각되어서 그냥 넘어갔던 녀석들을 한번에 정리해 보려고 한다. 1. super() : super()은 다른 class의 method를 상속받을 때 사용 한다. (Return a proxy object that delegates method calls to a parent or sibling class of type) 출처 : https://docs.python.org/2/library/functions.html#super class Rectangle: def __init__(self, length, width): self.length = length self.width = width def area(self): retu..
Q1.강화학습의 목표는 무엇일까? => 마르코프 결정과정 주어진 환경에서 어떻게 행동해야 가장 높은 보상을 받을 수 있을지 알아내는 것 주어진 환경 = 상태가치함수 V(s), 행동가치함수 Q(s,a) 구하고자 하는 것 = 어떻게 행동 해야하는지 = 행동 정책 π* Q2. 환경을 알고 있을 때 최적의 행동정책π* 은 어떻게 구해야 하는가? => 동적계획법 환경을 알고 있을 때 = 상태가치함수 V(s)와, 행동가치함수 Q(s, a)를 알고 있을때 환경을 안다는 것은, 모든 상태 (S), 상태천이Tensor (P), 어떤 상태에서 행동에 따른 보상 (R) 을 안다는 것이다 정책평가 = 주어진 행동 정책 π에서 상태가치, 행동가치 계산 Vπ(s), Qπ(s, a) 정책평가는 [bellman 방정식] 을 통해 수..
이전에 강화학습 이론은 우리가 환경에 대한 정보를 안다는 가정을 했었다. 환경이란, 상태의 종류 = S 행동의 종류 = A 행동을 했을 때의 보상 = R 이전에 배웠던 내용들 강화학습의 목표는 무엇일까? : 마르코프 결정 과정 최적의 행동은 어떻게 찾을까? : 동적계획법 (feat 정책반복) 저 효율적으로 최적 행동을 찾을 수는 없을까? : 비동기적 동적계획법 몬테카를로 등장 배경 동적계획법 아래에서 강화학습은 미로(환경)에 대한 정보가 주어지고 그 미로를 통과하기 위한 최적 루트를 찾는 것과 같다. 하지만, 통제된 환경이 아닌 현실세계에서 우리는 위와 같은 정보를 알수가 없다. 그래서 우리는 현재 환경에 대한 정보가 없을때에도 최적의 행동이 무엇인지 찾을 수 있어야 한다. 다시한번 강화학습의 목표와 방..
오늘 배울내용 이전에 알아야할 내용은 다음과 같다. 마르코프 결정 과정과 벨만 방정식 마르코프 결정 과정의 해를 구하는 방법 : 동적계획법 동적계획법으로 최적의 행동 정책π을 구하는 과정에서 While문을 두번 사용해야 한다 정책평가 할 때 정책반복 할 때 이것을 하나로 줄일 수 있는 방법이 있는데, 가치 반복 (VI : Value Iteration)이다. 가치반복 (VI : Value Iteration) 개념은 간단하다. 이전에는 정책평가(PE)에서 평균값에 수렴시켰다면, 가치반복에서는 가치값을 최대값으로 수렴시켰다는 점이다. 근데 여기서 한가지 문제점이 발생하게 되는데 최적값을 찾는 과정에서 원래 정책개선에 포함되어 있던 "불필요한 행동 제거"가 없어지게 되기 때문에 계속 전체 경우의 수를 모두 고려..
이전에는 마르코프 결정 과정 (MDF : Markov Decision Process)을 통해 강화학습의 문제가 결국 "행동을 선택하는 최적의 정책" π*을 찾는 것이라고 어렴풋이 알게 되었다. 마르코프과정 정리 내용☜ 하지만, π*는 정해진 해가 없기 때문에 특정 알고리즘을 통해 최적해를 찾아가야하는 문제가 남아있다. 동적계획법(DP : Dynamic Programming)은 마르코프 결정 과정에서 최적의 정책을 찾기 위한 문제풀이방법 중 하나이다, 동적계획법(DP : Dynamic Programming) => 복잡한문제를 작은문제로 쪼개서 답을 구하는 방법을 뜻한다 큼 음식을 한번에 먹는 것이 아니라, 그것을 1000조각을 내서 작은 음식을 1000번 먹으면 되는 것처럼 복잡한 문제를 한번에 해결하는 ..
이 글은 그냥 개인적으로 공부한 내용을 정리할 목적으로 작성이 되었습니다 ㅎㅎ 마르코프 결정과정 (MDP) 관련 학습 내용 마르코프 연쇄 (Markov Chain) 마르코프 보상과정 (Markov Reward Process) 마르코프 결정과정 (Markov Decision Process) 마르코프의 특성 현재 상태에는 과거의 모든 정보가 포함되어 있다. 현재 상태를 알면 과거와 무관하게 미래상태를 예측할 수 있다. 마르코프 연쇄와 상태 변이 행렬(State Transition Matrix) 특정 상태에서 다른 상태로 변이될 확률을 표현한 행렬 집 학교 학원 PC방 치킨 분식 피자 운동 만화 잠 집 0.6 0.3 0.1 학교 0.3 0.4 0.3 학원 0.1 0.2 0.2 0.5 PC방 0.2 0.8 치킨..
머신러닝이란, 컴퓨터가 '의사결정'을 할 수 있도록 '교육' 하는 것이다 . 사람이 하는 의사결정에는 크게 2가지가 있다. 분류 : 어떤 사진속 동물을 보고 "개"인지 "고양이"인지 판단하는 것 예측 : 내가산 주식 가격이 오를지 내려갈지 판단하는 것 오늘 배울 내용은, 컴퓨터가 의사결정을 할 수 있도록 하기 위해 어떻게 컴퓨터를 교육하는지에 대한 부분이다. 컴퓨터를 교육하는 방식에는 크게 두가지 방법이 있다 지도학습 비지도학습 지도학습 지도학습이란, "결과"를 알고 있을때 사용하는 학습 방법이다. 지도학습은 이미 인간이 알고있는 규칙성을 컴퓨터에게 학습시켜, 반복적인 의사결정을 컴퓨터가 할 수 있도록 한다. 지도학습의 방법에는 두가지가 있다 분류(classification) = 고양이 사진을 통해 고양..
머신러닝? - when: 결과는 알지만 결과에 도달하는 방법은 모를 때 ex) 어렸을 때 어머니가 해주신 김치찌개 맛은 알지만 그 레시피를 모를때 - how: (시도 - 결과와 비교(오류 측정) - 조정) x 반복 / ex) 어머니가 해주신 김치찌개를 만들기 위해 여러가지 레시피를 시도 하여 가장 그 맛에 가까운 레시피를 찾아감 프로그래밍 vs 머신러닝 - 프로그래밍 = 목표를 이루기 위한 방법을 컴퓨터에게 직접 명령하는 방법 ex) 컴퓨터에게 김치찌개의 요리레시피를 주고 그 레시피 대로 수행하도록 하는 것 - 머신러닝 = 목표를 이루기 위한 방법을 컴퓨터가 스스로 찾아가는 방법 ex) 컴퓨터에게 김치찌개의 맛만 보여준 후, 그 맛을 내기 위한 방법을 스스로 찾도록 하는 것 머신러닝 특징들 - 오류를 컴..
- Total
- Today
- Yesterday
- 크롤링
- 머신러닝
- 프로그래머스
- 유니티
- beautifulsoup
- 심리학
- 주식투자
- 스타트업
- C#
- 강화학습
- 일자별
- 마케팅
- json
- 알고리즘
- 파이썬
- 비전공자
- 경영학
- 가격데이터
- 시스템투자
- It
- PYTHON
- 사진크롤링
- Unity
- Anet
- IT기초
- requests
- ET5X
- 랜덤맵
- 터틀트레이딩
- 주식
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |