reinforcement learning

Agent AI (RL)

A (Long) Peek into Reinforcement Learning -Part 3

자, 여태까지 강화학습의 기본 개념들, MDP, 그리고 그 MDP를 풀기 위한 방법인 Bellman Equation까지 다뤄보았다. 이번에는 RL을 푸는 대표적이고 고전적인 알고리즘들에 대해서 알아볼 것이다. 우선은 environment에 대한 정보를 다 알 때 사용하는 Dynamic Programming 부터 시작하여, environment에 대한 정보를 모를 때의 방법들을 다루고, 이것도 모자라 environment에 대한 정보도 제대로 모르는데 문제가 점점 커지는 경우 (state, action space가 매우 큰 경우), DNN을 사용해서 Value, Q, policy를 모델링하는 방법으로 넘어가도록 하자. 알고리즘 분류법 굉장히 좋은 사진이 있어서 가져왔다. 여러 알고리즘들이 어떤 카테..

Agent AI (RL)

A (Long) Peek into Reinforcement Learning -Part 2

이전 포스트에서는 강화학습이란 무엇인가? 그리고 나오는 key concept들에 대해서 알아보았다. 아직 기본 개념들에 익숙하지 않다면 꼭 이전 게시물을 보고 오는 것을 추천한다. 그럼 이어서 강화학습에 대해 더욱 다루어보도록 하자. MDP (Markov Decision Process) 강화학습에서는 대부분의 과제를 MDP로 모델링하여 해결한다. 그래야지만 우리가 이전까지 다루었던 state, action, reward, 그리고 transition probability를 써먹을 수가 있다. Markov Property MDP의 모든 state는 markov 성질을 만족한다. 약간 MDP가 가지고 있는 inductive bias 같은 거다. 이건 무슨 뜻이냐면, 뒤에 조건부 확률이 있는데, st만 조건..

Agent AI (RL)

A (Long) Peek into Reinforcement Learning -Part 1

이전에 강화학습에 대해서 공부하다가 굉장히 좋은 글을 찾았는데, 영어로 되어있는 터라, 직접 공부하여 얻은 직관들도 좀 같이 써넣을 겸, 한국어로도 자료를 남길 겸 정리를 좀 해보려고 합니다. 또한 본인도 약간 신나는 감이 없지 않아 있는데, 인공지능에 입문하게 된 계기가 당연히 2016년 구글 딥마인드 챌린지 매치, AlphaGO 이기 때문입니다. 그전부터 딥마인드는 DQN을 이용해 Atari를 하는 등 강화학습의 대가적 모습을 보여주었고 (David Silver와 같은 사람들 덕분이겠죠) , AlphaGo로 대박을 터뜨렸으며, 인간의 기보도 필요없으면서 좋은 성능을 보이는 AlphaZero를 내고, DOTA2에서 프로선수들을 이겼습니다. OpenAI의 ChatGPT도 그 학습에 RLHF, 인간 피드백..

ShinyJay
'reinforcement learning' 태그의 글 목록