NISHIO Hirokazu[Translate]
楽観的初期値法
2017-01-11
>楽観的初期値法を知らなかったので実験して見たけど僕の問題設定ではUCB1と報酬平均が逆転するのに20000試行くらい掛かってて、応用対象によってはこっちの方が良いケースもありそうだなぁと思った。

p.33




"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]