본문 바로가기

AI/모두를 위한 강화학습4

Lecture 4-2 : Q-learning - exploit&exploration and discounted future reward ( 실습 ) 모두를 위한 딥러닝 - Deep Reinforcement Learning 이는 저번 시간에 배웠던 Decaying E-greedy 방법이다. 그리고 env.action_space.sample() 이라는 것은 action space 에서 sample을 해서 살펴보겠다는 것이다. 아니면 Q 값 중에서 가장 큰 값을 선택하겠다는 뜻이다. 그리고 위에서 언급한 Decaying E-greedy 에서 이제는 Add Random noise 를 해준 다면 위의 그림과 같이 된다는 것을 알 수 있다. 여기서 Discounted reward를 위해 0.99 를 해준 것을 볼 수 있다. 그리고 오른그림 아래쪽에 보면, Q를 update해주는 것에 있어서 기존 reward와 dis * Q' 을 해주는 것을 볼 수 있다. 결과를 보면 기존의 Dummy Q-learning은 출력된 Q 값이 0 아니면.. 2020. 2. 17.
Lecture 4-1 : Q-learning - exploit&exploration and discounted future reward ( 이론 ) 모두를 위한 딥러닝 - Deep Reinforcement Learning 저번 시간에 배운 내용을 자세히 보면, Dummy 라는 내용을 볼 수 있다. 이는 어딘가 완벽하지 않은 알고리즘이었기 때문이다. Dummy Q의 핵심은 [[ 지금의 Q 값은 내가 얻은 reward 와 그 다음 단계에서 얻는 최대 Q의 값으로 정해진다는 것이다. ]] 왼쪽 그림을 보면 우리가 했던 알고리즘을 통해서 보면 다음과 같은 문제를 발견할 수 있다. optimal policy를 사용해서 왼쪽과 같은 결과를 얻게 되는데, 이것이 과연 옳은 결과일까? 새로운 길을 찾아보려면, 그 값이 1이 아니더라도, 한번 가볼만한 "가치"가 있지 않을까? 라고 생각하게 된다. 이와 같은 생각은 학습할 때 큰 장점을 제공해주기 때문에 기존에 우리가 했던 방식과 함께 나타내어 다음과 같이 "Exploit vs. Expl.. 2020. 1. 27.
Lecture 3-2 : Dummy Q-learning ( 실습 ) 모두를 위한 딥러닝 - Deep Reinforcement Learning Python Language 의 장점은 우리가 그냥 적어놓는 글들을 고스란히 코딩으로 바꿔놓을 수 있다는 점이다. 따라서 왼쪽에 나와있는 글을 쉽게(?) 파이썬 코드로 바꿔보면 오른쪽과 같다. np.zeros ( 모든 Q를 0으로 만드러버린다. ) - 이때 0을 넣어줄 Space에 대한 Array 는 어떻게 만들어야 할까? 물론 직접 숫자 ( 16,4 ) 를 넣어줘도 되지만, 이미 알고 있는 환경이기도 하고 추후에 환경의 변화가 생겼을 때 조금 더 유연하게 대처하기 위해 [env.observation_space.n, env.action_space.n] 으로 나열해준다. 그리고 num_episodes = 2000은 에피소드의 개수를 의미한다. 그 다음에 왼쪽의 Observe current state s 는.. 2020. 1. 26.
Lecture 3-1 : Dummy Q-learning ( 이론 ) 모두를 위한 딥러닝 - Deep Reinforcement Learning Even if you know the way, just ask! Q라는 아이는 알려준다. 어느 방향으로 가는지에 따라 어떤 결과가 생길지에 대해 예측해준다. 너가 이런 상태(state)에서 이런 액션(action)을 하게 되면다면? 이런 결과(quality or reward)를 얻게 될 것이야. It called " Q-function / state-action value function / Q(state,action)" Policy using Q-function. We can choose the method how we can get reward higher and higher. 아무튼 우리가 각 방향에 따라 어떤 reward 가 생겼는지 알게되었을 때, 방향을 선택하게 되는데 무엇을 기준으로 하느냐!.. 2020. 1. 26.