민서네집

강화학습(RL) 스터디맵 본문

머신러닝

강화학습(RL) 스터디맵

브라이언7 2018. 2. 25. 21:01

https://www.facebook.com/bryan7.kang/posts/1649968625073684?pnref=story


[발췌]


지난 주말에 풀 타임으로 강화학습을 공부해 보았는데요.

몇 개월 전에 김성훈 교수님 강좌 듣고 미루어 두었다가 맘 먹고 달려보았습니다.

그 경험이 도움이 될까 하여 제 나름대로 자료 보는 순서를 정리해서 글 올려봅니다.

1. 역시나 ‘모두를 위한 RL’ 강좌를 먼저 듣는 게 최선인 듯 합니다. 저는 기억을 되살리기 위해 Lecture7:DQN을 다시 들었습니다.
https://www.youtube.com/playlist…

2. 그 다음에 Naver Engineering에 올라와 있는 곽동현 님의 'Introduction of Deep Reinforcement Learning'을 들었습니다. 전반적인 설명이 매우 도움이 많이 됩니다.

여기서 살사와 큐러닝 차이에 대한 부분이 나오는데, 이 부분이 바로 이해가 잘 되지 않으면 이웅원 님의 ‘파이썬과 케라스로 배우는 강화학습’(http://www.yes24.com/24/goods/44136413) 책에 보면 쉽게 잘 설명이 되어 있습니다.

3. 여기까지 듣고 DQN에 대한 PR12 논문 읽기 동영상을 들으면서 정리를 했습니다.

PR-005: Playing Atari with Deep Reinforcement Learning (NIPS 2013 Deep Learning Workshop)

https://www.youtube.com/watch…

4. 글을 읽으면서 다시 정리를 위해 카카오 AI 리포트를 읽었습니다.
[카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀 1편입니다.
https://brunch.co.kr/@kakao-it/73

5. 이제 한 걸음 더 나아가서 Naver Engineering에 올라와 있는 이웅원 님의 'RLCode와 A3C 쉽고 깊게 이해하기' 강좌를 들었습니다.
http://tv.naver.com/v/2022271

6. 위 5번과 관련되어 있는 PR12에서 모두연 김승일 소장님이 리뷰하신 동영상을 들었습니다.

PR-019: Continuous Control with Deep Reinforcement Learning

https://www.youtube.com/watch…

7. 이제 카카오 AI 리포트 2편을 읽어 보았습니다.

[카카오AI리포트]알파고를 만든 강화학습의 비밀 2편입니다.
https://brunch.co.kr/@kakao-it/102

2편에는 알파고 얘기가 많이 나오면서 몬테카를로 트리탐색에 대한 얘기도 많습니다. 보기에 어려움을 느끼면, 아래 2개 강좌를 듣고 난 이후에 보면 훨씬 나을 듯 합니다.

(1) 충북대 이건명 교수님의 '탐색과 최적화1' 부분만 일단 듣습니다.
http://www.kocw.net/home/cview.do?lid=79a36e94d86a2ddc

(2) 그 다음에는 유튜브에서 '알파고는 어떻게 바둑을 두나 (충북대학교 소프트웨어학과 이건명 교수)' 영상을 듣습니다.

https://www.youtube.com/watch…

8. 그리고 마지막으로 Naver Engineering에 올라와 있는 김태훈 님의 '알아두면 쓸데있는 신기한 강화학습'을 들었습니다.
http://tv.naver.com/v/2051482

아무래도 다음 주말에 한번 더 돌아야 할 것 같습니다.

역강화학습 내용인 것 같은데, 아래 내용은 주말에 다시 복습하면서 들어야 할 듯 합니다.

PR-029- Apprenticeship Learning via Inverse Reinforcement Learning

< 주말에 한번 전체 Full로 돌아보기에 좋지 않을까 하여 올려 봅니다. 전부 다 우리말입니다. >

< 부작용 있을 수 있습니다. 두통이 심하게 올 수 있습니다. >


'머신러닝' 카테고리의 다른 글

Microsoft Professional Program for Artificial Intelligence track  (0) 2018.04.15
주가예측 RNN LSTM GRU  (0) 2018.04.13
[Tensorflow] memory leak  (0) 2018.01.27
TensorFlow GPU Memory Error  (0) 2018.01.13
[강화학습]  (0) 2018.01.04
Comments