>@tsukammo: 人生最適化が上手くいかない原因、ゲーム木探索で説明できてしまって困る。
>
>@tsukammo: 直接的な報酬だけによる評価関数だとこうなっちゃうので、よくある"ライフハック"とかは「好奇心」とか「細かいstepで刻んでご褒美を用意」とかで、評価関数を適正化していっているんだよな。
>うん、全部わかってるんだけどね。しないだよね。