- Arawn's Dev Blog
- Outsider's Dev Story
- Toby's Epril
- Benelog
- NHN 개발자 블로그
- SK 플래닛 기술 블로그
- OLC CENTER
- 소프트웨어 경영/공학 블로그
- 모바일 컨버전스
- KOSR - Korea Operating System …
- 넥스트리 블로그
- 리버스코어 ReverseCore
- SLiPP
- 개발자를 위하여... (Nextree 임병인 수석)
- "트위터 부트스트랩: 디자이너도 놀라워할 매끈하고 직관…
- Learning English - The English…
- real-english.com
- 'DataScience/Deep Learning' 카테…
- Deep Learning Summer School, M…
- Deep Learning Courses
민서네집
강화학습(RL) 스터디맵 본문
https://www.facebook.com/bryan7.kang/posts/1649968625073684?pnref=story
[발췌]
지난 주말에 풀 타임으로 강화학습을 공부해 보았는데요.
몇 개월 전에 김성훈 교수님 강좌 듣고 미루어 두었다가 맘 먹고 달려보았습니다.
그 경험이 도움이 될까 하여 제 나름대로 자료 보는 순서를 정리해서 글 올려봅니다.
1. 역시나 ‘모두를 위한 RL’ 강좌를 먼저 듣는 게 최선인 듯 합니다. 저는 기억을 되살리기 위해 Lecture7:DQN을 다시 들었습니다.
https://www.youtube.com/playlist…
2. 그 다음에 Naver Engineering에 올라와 있는 곽동현 님의 'Introduction of Deep Reinforcement Learning'을 들었습니다. 전반적인 설명이 매우 도움이 많이 됩니다.
여기서 살사와 큐러닝 차이에 대한 부분이 나오는데, 이 부분이 바로 이해가 잘 되지 않으면 이웅원 님의 ‘파이썬과 케라스로 배우는 강화학습’(http://www.yes24.com/24/goods/44136413) 책에 보면 쉽게 잘 설명이 되어 있습니다.
3. 여기까지 듣고 DQN에 대한 PR12 논문 읽기 동영상을 들으면서 정리를 했습니다.
PR-005: Playing Atari with Deep Reinforcement Learning (NIPS 2013 Deep Learning Workshop)
https://www.youtube.com/watch…
4. 글을 읽으면서 다시 정리를 위해 카카오 AI 리포트를 읽었습니다.
[카카오AI리포트]알파고를 탄생시킨 강화학습의 비밀 1편입니다.
https://brunch.co.kr/@kakao-it/73
5. 이제 한 걸음 더 나아가서 Naver Engineering에 올라와 있는 이웅원 님의 'RLCode와 A3C 쉽고 깊게 이해하기' 강좌를 들었습니다.
http://tv.naver.com/v/2022271
6. 위 5번과 관련되어 있는 PR12에서 모두연 김승일 소장님이 리뷰하신 동영상을 들었습니다.
PR-019: Continuous Control with Deep Reinforcement Learning
https://www.youtube.com/watch…
7. 이제 카카오 AI 리포트 2편을 읽어 보았습니다.
[카카오AI리포트]알파고를 만든 강화학습의 비밀 2편입니다.
https://brunch.co.kr/@kakao-it/102
2편에는 알파고 얘기가 많이 나오면서 몬테카를로 트리탐색에 대한 얘기도 많습니다. 보기에 어려움을 느끼면, 아래 2개 강좌를 듣고 난 이후에 보면 훨씬 나을 듯 합니다.
(1) 충북대 이건명 교수님의 '탐색과 최적화1' 부분만 일단 듣습니다.
http://www.kocw.net/home/cview.do?lid=79a36e94d86a2ddc
(2) 그 다음에는 유튜브에서 '알파고는 어떻게 바둑을 두나 (충북대학교 소프트웨어학과 이건명 교수)' 영상을 듣습니다.
https://www.youtube.com/watch…
8. 그리고 마지막으로 Naver Engineering에 올라와 있는 김태훈 님의 '알아두면 쓸데있는 신기한 강화학습'을 들었습니다.
http://tv.naver.com/v/2051482
아무래도 다음 주말에 한번 더 돌아야 할 것 같습니다.
역강화학습 내용인 것 같은데, 아래 내용은 주말에 다시 복습하면서 들어야 할 듯 합니다.
PR-029- Apprenticeship Learning via Inverse Reinforcement Learning
< 주말에 한번 전체 Full로 돌아보기에 좋지 않을까 하여 올려 봅니다. 전부 다 우리말입니다. >
< 부작용 있을 수 있습니다. 두통이 심하게 올 수 있습니다. >
'머신러닝' 카테고리의 다른 글
Microsoft Professional Program for Artificial Intelligence track (0) | 2018.04.15 |
---|---|
주가예측 RNN LSTM GRU (0) | 2018.04.13 |
[Tensorflow] memory leak (0) | 2018.01.27 |
TensorFlow GPU Memory Error (0) | 2018.01.13 |
[강화학습] (0) | 2018.01.04 |