強化学習の勉強 30分目 | ハムレットエンジニアのカンニングノート

積み上げ30分間の強化学習の勉強したことを整理しました，

バンディット問題

勉強する中で「バンディット問題」と聞くと，実行時に発生する問題と勘違いしましたが，これは「巡回セールスマン問題」のような例題のようなものです．

ここでの「バンディット問題」の問題文は下記のようになります．

ここに，当たり率の異なるスロットマシーンが膨大な数あります．スロットマシーンを動かしていいのは10000回です．
それで，最も当たりを引くパターンを探してください．

※バンディットとは盗賊のことで，スロットマシーンが盗賊のごとく金を吸うことから博徒の間で隠語の広まったようです．

問題文を強化学習に当てはめると，スロットマシーンを選ぶプレイヤーは「エージェント」,膨大な数のスロットマシーンが並んでる様子を「環境」と呼びます．

ただし，一般的な強化学習では，環境の中に「状態」が入ります．プレイヤーがスロットマシーンを選ぶたびに，いくつかのスロットマシーンがランダムで爆発するようなことが起きれば，環境が変わるので「状態」を考慮する必要があります．

しかし，そんなことは起きないので，今回は状態は考慮しません．

ここでのスロットマシーンは，排出されるコインの数(強化学習では「報酬」)が0, 1, 3, 5, 10枚の4パターンで，それぞれの確率もバラバラです．

その状況で，どうやって良いスロットマシーンと判断するか？

スロットマシーンの「報酬」には確率が存在するので，確率分布の差を見ます．

確率分布の差を見るときは，t検定しかり，KL情報量しかり，期待値(確率分布の平均)を見ることです．

ここでの，「報酬」の期待値(確率分布の平均)のことを「価値」，行動に対して得られる報酬」の期待値(確率分布の平均)を「行動価値」とします．

数式
q:行動価値, R:報酬の期待値, A:行動, |:条件付き
行動Aの行動価値は，行動Aに対しての報酬の期待値と一致する

q (A) = E (R | A)

6 * \frac{1}{6} + 5 * \frac{1}{6} + 4 * \frac{1}{6} + 3 * \frac{1}{6} + 2 * \frac{1}{6} + 1 * \frac{1}{6} = 3.5

ここまでで，「確率変数の期待値 = 確率分布の平均」についての解説もどき(2021/1/14時点での勉強結果)を記述しました．