NISHIO Hirokazu[Translate]
線形バンディット
行動がd次元ベクトルで表現され、d次元の未知のパラメータと内積をとってノイズが乗ったものが報酬になるモデル
X_i(t) = \theta^\top a_i + \epsilon(t)
基本的なバンディットはこの行動ベクトルがone-hotである場合に相当する


"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]