본문 바로가기

몽돌이 되는 과정 : )69

Webots Tutorial 4 - More about Controllers 혹시나 까먹을까 하고 다시 한번 New Robot Controller를 불러옵니다. Wizards -> New Robot Controller -> and then you can make your own Robot controller : ) 참고하면 도움되는 Reference Manual node and API functions : https://cyberbotics.com/doc/reference/nodes-and-api-functions?tab-language=python 순서는 다음과 같다. 1. Controller API로 부터 Robot, DistanceSensor, Motor를 호출하고 2. time step을 정해준다. 3. 그리고 각 step 마다 어떤 행동을 할 것인지에 대해 말해준다. 4.. 2020. 2. 19.
Webots Tutorial 3 - Appearance 2020. 2. 19.
Webots Tutorial 2 - Modification of the Environment 각각의 노드에 대한 정보는 다음에서 참고할 수 있다. https://cyberbotics.com/doc/reference/node-chart?tab-language=python https://cyberbotics.com/doc/reference/nodes-and-api-functions?tab-language=python 첫 번째는 노드가 어떻게 구성되어있는지에 대한 차트이기 때문에, 노드간의 관계를 볼 수 있다. 두 번째는 노드가 어떻게 정의되는지를 볼 수 있는 링크이다. 이제 가장 중요한 Node인 Solid 에 대해 알아보자. 여기에는 Subdivision 에 대한 정의를 찾을 수 있다. https://cyberbotics.com/doc/reference/sphere?tab-language=python 2020. 2. 18.
Lecture 4-2 : Q-learning - exploit&exploration and discounted future reward ( 실습 ) 모두를 위한 딥러닝 - Deep Reinforcement Learning 이는 저번 시간에 배웠던 Decaying E-greedy 방법이다. 그리고 env.action_space.sample() 이라는 것은 action space 에서 sample을 해서 살펴보겠다는 것이다. 아니면 Q 값 중에서 가장 큰 값을 선택하겠다는 뜻이다. 그리고 위에서 언급한 Decaying E-greedy 에서 이제는 Add Random noise 를 해준 다면 위의 그림과 같이 된다는 것을 알 수 있다. 여기서 Discounted reward를 위해 0.99 를 해준 것을 볼 수 있다. 그리고 오른그림 아래쪽에 보면, Q를 update해주는 것에 있어서 기존 reward와 dis * Q' 을 해주는 것을 볼 수 있다. 결과를 보면 기존의 Dummy Q-learning은 출력된 Q 값이 0 아니면.. 2020. 2. 17.