コンテンツにスキップ

強化学習

出典: フリー百科事典『ウィキペディア(Wikipedia)』

これはこのページの過去の版です。Johanc (会話 | 投稿記録) による 2023年4月21日 (金) 13:55個人設定で未設定ならUTC)時点の版 (→‎アルゴリズムの比較)であり、現在の版とは大きく異なる場合があります。

強化学習シナリオの典型的な構成:エージェントは環境内でアクションを実行します。アクションは報酬と状態の表現に解釈され、エージェントにフィードバックされます。

強化学習(きょうかがくしゅう、: reinforcement learning)とは、ある環境内におけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種。エージェントは行動を選択することで環境から報酬を得る。強化学習は一連の行動を通じて報酬が最も多く得られるような方策(policy)を学習する。環境はマルコフ決定過程として定式化される。代表的な手法としてTD学習Q学習が知られている。

マルコフ決定過程

マルコフ決定過程 (Markov decision process; MDP) での強化学習は以下の条件の中、学習していく。

  • 環境は状態を持ち、それは完全に正確に観測可能。
  • エージェントが行動を行うと、環境が確率的に状態遷移し、環境から確率的に報酬が得られる。その遷移確率と報酬が得られる確率は事前には与えられず、学習過程で学習していく。
  • 報酬の指数移動平均を最大化するように行動する。

環境が完全・正確には観測可能でない場合は、部分観測マルコフ決定過程 (POMDP) という。

基本的なモデルでは、環境の状態や行動は離散であるが、連続とするモデルもある。状態および行動が有限集合の場合は有限マルコフ決定過程という。

マルコフ決定過程は人工知能分野における確率的プランニングの主要な定式化である。

動的計画法

動的計画法(dynamic programming)は環境のダイナミクス(状態遷移確率および報酬)が既知の場合に使える手法。[1]

モンテカルロ法

モンテカルロ法(Monte Carlo methods)とは行動によって得られた報酬経験だけを頼りに状態価値関数や行動価値関数を推定する方法のことを指す[2]。この方法はある状態 s から、得られる報酬の合計を予測しそれを基に状態の価値と次に行う行動を決定する。状態価値関数を V(s)、行動価値関数を Q(s, a) で表す(ここで a は状態 s で行う行動である)とき、モンテカルロ法は以下の式で値を更新する。

ここで、αは学習率(0 < α < 1)である。また Rt はシミュレーションによって得られる報酬の総和を未来に得られる分、割り引いたものであり、以下の式で表される。

ここで rt は時刻 t で得られた報酬であり、γ は割引率 (0 < γ < 1) である。モンテカルロ法はある状態 s から何らかの方策で次の行動を選び、Rt が収束するまでそれを繰り返した後、V(s) と Q(s, a) を更新するという行動を繰り返して最適な状態価値関数および行動価値関数を学習する。

TD学習

TD学習(temporal difference learning)は報酬経験だけを頼りにエピソードの終了まで待たずに状態価値関数や行動価値関数を更新する手法。[3]

SARSA法

SARSA法(state–action–reward–state–action)は方策オン型のTD学習。

Q学習

Q学習(Q-learning)は方策オフ型のTD学習。

神経科学

ヒトを含む高等生物は強化学習を行っていると思われる。 神経科学においては、Schultzらが、黒質緻密部のドーパミン作動性ニューロンから電気記録をとり、その位相性の発火が報酬予測誤差信号をコードしていることを示唆して以来、哺乳類の脳において大脳基底核ドーパミンを介した強化学習を行う神経回路であるという仮説が有力視されている。

最適化について

方策

エージェントの行動(action)の選択は方策(policy )呼ばれる写像としてモデル化できる。

方策は状態 において行動 を選択する確率である。 決定論的な方策(全ての確率が 0 または 1)を考えても良い。

状態価値関数

状態価値関数(state-value function) は、状態 以降の、すなわち、とした場合の方策 の下での 収益(return)の期待値として定義される。状態価値観数は、V関数とも呼ばれる。 状態価値関数はその状態にいることが「どのくらいよいか」を推定するものとして考えることができる。

ここで、確率変数 は収益を表し、報酬(reward)に割引率(discount-rate) を乗じて和を計算したものとして定義される。

ここで、 はステップ における報酬であり、 は割引率である。割引率は 1 未満に設定され、遠い未来の事象ほど重み付けが小さくなる。

期待収益が最大となる方策を探索する。

アルゴリズムの比較

アルゴリズム 詳細 ポリシー型 行動空間 状態空間 オペレータ
モンテカルロ法 エピソードが終わるまで収益が確定しない オフでもオンでも良い 離散 離散 Sample-means
Q学習 状態、行動、報酬、次の状態の4つ組でQ関数(Qテーブル)の更新を行う オフポリシー 離散 離散 Q値
SARSA法 State–Action–Reward–State–Actionの略 オンポリシー 離散 離散 Q値
Q学習(λ) Q学習に適格度トレース(eligibility traces)を導入したもの オフポリシー 離散 離散 Q値
SARSA(λ)法 SARSAに適格度トレース(eligibility traces)を導入したもの オンポリシー 離散 離散 Q値
DQN Deep Q Network オフポリシー 離散 連続 Q値
DDPG Deep Deterministic Policy Gradient オンポリシー 連続 連続 Q値
A3C Asynchronous Advantage Actor-Critic Algorithm オンポリシー 連続 連続 アドバンテージ
NAF Q-Learning with Normalized Advantage Functions オフポリシー 連続 連続 アドバンテージ
TRPO Trust Region Policy Optimization オンポリシー 連続 連続 アドバンテージ
PPO Proximal Policy Optimization オンポリシー 連続 連続 アドバンテージ
TD3 Twin Delayed Deep Deterministic Policy Gradient オフポリシー 連続 連続 Q値
SAC Soft Actor-Critic オフポリシー 連続 連続 アドバンテージ

脚注

出典

  1. ^ Sutton, Richard S. (1998). Reinforcement Learning: An Introduction. p. 73. ISBN 978-0262039246. http://incompleteideas.net/book/RLbook2018trimmed.pdf 
  2. ^ Sutton, Richard S. (1998). Reinforcement Learning: An Introduction. p. 91. ISBN 978-0262039246. http://incompleteideas.net/book/RLbook2018trimmed.pdf 
  3. ^ Sutton, Richard S. (1998). Reinforcement Learning: An Introduction. p. 119. ISBN 978-0262039246. http://incompleteideas.net/book/RLbook2018trimmed.pdf 

外部リンク