NISHIO Hirokazu[Translate]
短期的報酬に最適化すると弱くなる例
短期的報酬に最適化すると弱くなる例
>@tsukammo: 人生最適化が上手くいかない原因、ゲーム木探索で説明できてしまって困る。
>
>@tsukammo: 直接的な報酬だけによる評価関数だとこうなっちゃうので、よくある"ライフハック"とかは「好奇心」とか「細かいstepで刻んでご褒美を用意」とかで、評価関数を適正化していっているんだよな。
>うん、全部わかってるんだけどね。しないだよね。


"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]