Actor-Critic

Agent AI (RL)

A (Long) Peek into Reinforcement Learning -Part8

2025.06.08

지난 번에 우리는 policy gradient theorem을 통해 총 return에 대한 gradient, 즉 이 부분에 대한 gradient를, 다음과 같이 표현할 수 있다는 것을 알았다. 이제부터 모든 policy gradient 알고리즘들은 이 형태의 식에서 시작한다. 오늘은 Actor-Critic 방법들에 대해서 알아볼 예정이다. Actor-Critic 우리가 가지고 있는 문제는, 저 위의 true Q value를 모른다는 것이다. 이걸 approximation 할 수 있는 "Critic" network를 하나 만드는 것이 우리의 목표이다. 저 앞부분이 이제부터 조금씩 바뀔 건데, 저 앞부분은 약간 업데이트 기준이 되는 값이라고 생각하면 된다. 결국 Actor-Critic 방법은 저 앞부분을..

A (Long) Peek into Reinforcement Learning -Part8

티스토리툴바