diff --git a/papers/SAMPLE EFFICIENT ACTOR-CRITIC WITH EXPERIENCE REPLAY.md b/papers/SAMPLE EFFICIENT ACTOR-CRITIC WITH EXPERIENCE REPLAY.md new file mode 100644 index 0000000..790c9d9 --- /dev/null +++ b/papers/SAMPLE EFFICIENT ACTOR-CRITIC WITH EXPERIENCE REPLAY.md @@ -0,0 +1,154 @@ +# SAMPLE EFFICIENT ACTOR-CRITIC WITH EXPERIENCE REPLAY + + + + + + +- 論文リンク: https://arxiv.org/abs/1611.01224 +- 出版年: 2017 +- ジャーナル・カンファレンス: ICLR +- 著者: Ziyu Wang, Victor Bapst, Nicolas Heess, Volodymyr Mnih, Remi Munos, Koray Kavukcuoglu, Nando de Freitas +- 所属: DeepMind, CIFAR, Oxford University + +- タグ: +- :actor-critic: +- :experience replay: +- :sample efficiency: +- :policy gradient: +- :atari: +- :mujoco: +- :neural network: + + + +## まとめ + +#### 概要 +Actor-critic法(A3C)にExperience Replayを組み合わせたアルゴリズムACERを提案し、A3Cに対する優位性をAtari、Mujocoドメインで実験的に示した。 + + + +#### 貢献(新規性・差分) +- 適切な処理によって勾配の分散を抑えれば, A3CにおいてもExperience Replayが機能することを示した。 + +#### 手法 + アルゴリズム全体としては、ACERはA3CでOn-policyの学習を行いつつ、それによってサンプルされたデータを使ってExperience Replay(Off-policyの学習)を行う。 +このExperience Replay部分において、Sample Efficiency向上のために以下の工夫を行っている。 + まず、Sample Efficiencyを向上するためにImportance Samplingの概念を取り入れている。 +Experience ReplayでImportance Samplingを行うと、通常であれば勾配の分散が非常に大きくなってしまい好ましくないが、 +ACERではImportance Weightをマージ[Degris 2012]した上でクリッピングを施し、さらにQ^πの推定にRetrace(λ)[Munos 2016]を用いることでこれを回避している. + また、Trust Region Policy Optimization[Schulman 2015]を応用したEfficient Trust Region Policy Optimizationを用い、 +更新後の方策がそれまでの方策の平均から離れすぎないよう更新を制限している。 + +#### 結果 + +##### 1. Atariドメインでの評価 +Atariの全ゲームを用いて、ACER、A3C、Prioritized Double DQN[Schaul 2016](以下DDQN)等のサンプル効率、計算量効率を比較。 +サンプル効率において大まかにDDQN = ACER(8 replay)> ACER(1 replay)> A3C。 +計算量効率において大まかにDDQN = ACER(1 replay)= A3C > ACER(8 replay)。 + +##### 2. Mujocoドメインでの評価 +Walker2d、Fish、Cartpole、Humanoid、Reacher3、Cheetahにて、ACER、A3C、Truncated Importance Sampling(以下TIS)のサンプル効率を比較。 +Cartpole以外でACERがもっとも良い結果。 +CartpoleにおいてもEfficient Trust Region Policy Optimization付きのTISに僅差の2位。 + + + + + + + +## コメント + + +#### @yoshito.ogawa: 6/10 +- 近年提案された重要な概念を利用しており, それらへのクリックリファレンスとして読むのも有用と思われる。 + + + + + +