sarsa

Agent AI (RL)

A (Long) Peek into Reinforcement Learning -Part5

2025.05.30

하나하나 세세하게 다루려다 보니까, 점점 늘어지고 있는 것 같은데, 어느새 part5까지 와버렸다. 이전에 TD learning의 prediction 부분, 타겟을 어떻게 구성하고 각 state의 value를 어떻게 업데이트할 건지에 대해 다뤘으므로, 오늘은 TD learning의 control 부분, 즉 policy를 어떻게 improve할 건지에 대한 방법인 SARSA와 Q-learning에 대해 알아보도록 하자. Policy를 어떻게 improvement할 건지에 대해서는 On-policy와 Off-Policy가 있다. SARSA가 On-policy, 그리고 Q-learning이 Off-policy method이다. Model-Free Control에 대해서 그 전에, Model-Free 상황..

A (Long) Peek into Reinforcement Learning -Part5

티스토리툴바