強化学習

強化学習（きょうかがくしゅう、英: reinforcement learning）とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策（policy）を学習する。環境はマルコフ決定過程として定式化される。代表的な手法としてTD学習やQ学習が知られている。

マルコフ決定過程

「マルコフ決定過程」も参照

マルコフ決定過程 (Markov decision process; MDP) での強化学習は以下の条件の中、学習していく。

環境は状態を持ち、それは完全に正確に観測可能。
エージェントが行動を行うと、環境が確率的に状態遷移し、環境から確率的に報酬が得られる。その遷移確率と報酬が得られる確率は事前には与えられず、学習過程で学習していく。
報酬の指数移動平均を最大化するように行動する。

環境が完全・正確には観測可能でない場合は、部分観測マルコフ決定過程 (POMDP) という。

基本的なモデルでは、環境の状態や行動は離散であるが、連続とするモデルもある。状態および行動が有限集合の場合は有限マルコフ決定過程という。

マルコフ決定過程は人工知能分野における確率的プランニングの主要な定式化である。

動的計画法

動的計画法（dynamic programming）は環境のダイナミクス（状態遷移確率および報酬）が既知の場合に使える手法。^[1]

モンテカルロ法

モンテカルロ法（Monte Carlo methods）とは行動によって得られた報酬経験だけを頼りに状態価値関数や行動価値関数を推定する方法のことを指す^[2]。この方法はある状態 s から、得られる報酬の合計を予測しそれを基に状態の価値と次に行う行動を決定する。状態価値関数を V(s)、行動価値関数を Q(s, a) で表す（ここで a は状態 s で行う行動である）とき、モンテカルロ法は以下の式で値を更新する。

V(s)\leftarrow V(s)+\alpha \left[R_{t}-V(s)\right]

Q(s,a)\leftarrow Q(s,a)+\alpha \left[R_{t}-Q(s,a)\right]

ここで、αは学習率（0 < α < 1）である。また R_t はシミュレーションによって得られる報酬の総和を未来に得られる分、割り引いたものであり、以下の式で表される。

R_{t}=r_{t+1}+\gamma r_{t+2}+\gamma ^{2}r_{t+3}+\dotsb =\sum _{\tau =0}^{\infty }\gamma ^{\tau }r_{t+1+\tau }

ここで r_t は時刻 t で得られた報酬であり、γ は割引率 (0 < γ < 1) である。モンテカルロ法はある状態 s から何らかの方策で次の行動を選び、R_t が収束するまでそれを繰り返した後、V(s) と Q(s, a) を更新するという行動を繰り返して最適な状態価値関数および行動価値関数を学習する。

TD学習

TD学習（temporal difference learning）は報酬経験だけを頼りにエピソードの終了まで待たずに状態価値関数や行動価値関数を更新する手法。^[3]

SARSA法

詳細は「SARSA法」を参照

SARSA法（state–action–reward–state–action）は方策オン型のTD学習。

Q(s_{t},a_{t})\leftarrow Q(s_{t},a_{t})+\alpha [r_{t+1}+\gamma Q(s_{t+1},a_{t+1})-Q(s_{t},a_{t})]

Q学習

詳細は「Q学習」を参照

Q学習（Q-learning）は方策オフ型のTD学習。

Q(s_{t},a_{t})\leftarrow Q(s_{t},a_{t})+\alpha \left[r_{t+1}+\gamma \max _{p}Q(s_{t+1},p)-Q(s_{t},a_{t})\right]

神経科学

ヒトを含む高等生物は強化学習を行っていると思われる。神経科学においては、Schultzらが、黒質緻密部のドーパミン作動性ニューロンから電気記録をとり、その位相性の発火が報酬予測誤差信号をコードしていることを示唆して以来、哺乳類の脳において大脳基底核はドーパミンを介した強化学習を行う神経回路であるという仮説が有力視されている。

最適化について

方策

エージェントの行動（action）の選択は方策（policy ）呼ばれる写像としてモデル化できる。

\pi :A\times S\rightarrow [0,1]

\pi (a,s)=\Pr(a_{t}=a\mid s_{t}=s)

方策は状態 $s$ において行動 $a$ を選択する確率である。決定論的な方策（全ての確率が 0 または 1）を考えても良い。

状態価値関数

状態価値関数（state-value function） $V_{\pi }(s)$ は、状態 $s$ 以降の、すなわち、 $s_{0}=s$ とした場合の方策 $\pi$ の下での収益（return）の期待値として定義される。状態価値観数は、V関数とも呼ばれる。状態価値関数はその状態にいることが「どのくらいよいか」を推定するものとして考えることができる。

V_{\pi }(s)=\operatorname {E} [R\mid s_{0}=s]=\operatorname {E} \left[\sum _{t=0}^{\infty }\gamma ^{t}r_{t}\mid s_{0}=s\right]

ここで、確率変数 $R$ は収益を表し、報酬（reward）に割引率（discount-rate） $\gamma$ を乗じて和を計算したものとして定義される。

R=\sum _{t=0}^{\infty }\gamma ^{t}r_{t}

ここで、 $r_{t}$ はステップ $t$ における報酬であり、 $\gamma \in [0,1)$ は割引率である。割引率は 1 未満に設定され、遠い未来の事象ほど重み付けが小さくなる。

期待収益が最大となる方策を探索する。

アルゴリズムの比較

アルゴリズム	詳細	ポリシー型	行動空間	状態空間	オペレータ
モンテカルロ法	エピソードが終わるまで収益が確定しない	オフでもオンでも良い	離散	離散	Sample-means
Q学習	状態、行動、報酬、次の状態の4つ組でQ関数(Qテーブル)の更新を行う	オフポリシー	離散	離散	Q値
SARSA法	State–Action–Reward–State–Actionの略	オンポリシー	離散	離散	Q値
Q学習(λ)	Q学習に適格度トレース(eligibility traces)を導入したもの	オフポリシー	離散	離散	Q値
SARSA(λ)法	SARSAに適格度トレース(eligibility traces)を導入したもの	オンポリシー	離散	離散	Q値
DQN	Deep Q Network	オフポリシー	離散	連続	Q値
DDPG	Deep Deterministic Policy Gradient	オンポリシー	連続	連続	Q値
A3C	Asynchronous Advantage Actor-Critic Algorithm	オンポリシー	連続	連続	アドバンテージ
NAF	Q-Learning with Normalized Advantage Functions	オフポリシー	連続	連続	アドバンテージ
TRPO	Trust Region Policy Optimization	オンポリシー	連続	連続	アドバンテージ
PPO	Proximal Policy Optimization	オンポリシー	連続	連続	アドバンテージ
TD3	Twin Delayed Deep Deterministic Policy Gradient	オフポリシー	連続	連続	Q値
SAC	Soft Actor-Critic	オフポリシー	連続	連続	アドバンテージ

脚注

[脚注の使い方]

出典

外部リンク

Reinforcement Learning （英語） - スカラーペディア百科事典「強化学習」の項目。
強化学習とは？木村元ら
強化学習FAQ Suttonの強化学習FAQ(英語)の日本語訳

[1] Sutton, Richard S. (1998). Reinforcement Learning: An Introduction. p. 73. ISBN 978-0262039246

[2] Sutton, Richard S. (1998). Reinforcement Learning: An Introduction. p. 91. ISBN 978-0262039246

[3] Sutton, Richard S. (1998). Reinforcement Learning: An Introduction. p. 119. ISBN 978-0262039246

[1]

[2]

[3]