NISHIO Hirokazu[Translate]
トンプソンサンプリング
期待値をベイズ推定する
各行動の期待値最大である確率でその行動を選ぶ(確率一致法)
ただし、この「期待値最大である確率」の計算をやる代わりに乱択アルゴリズムを使う
ベイズなので期待値の分布が得られている。この分布からサンプリングをする
サンプリングした結果、値が最大であった行動を選ぶ
これで「期待値最大である確率でその行動を選ぶ」が実現される



"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]