NISHIO Hirokazu
[Translate]
強化学習
社内勉強会の資料一覧
以下社内勉強会での10分解説用のドラフト
強化学習
教師あり学習
入力と教師データ
囲碁で言うなら記譜
教師データ誰が作るんだ
人間だよ
10件100件お話にならない
AlphaGo
16万対局
2840万盤面
57.0%
自己対戦
何回?
状態価値ネットワーク
自己対戦の結果からデータを取る
1対局から1盤面しかとらない
30 million = 3000万対局
Tweet
Related Pages
双シェマモデル プレゼン
明らかでないシステムを理解するゲーム
知識を編むプログラム
利用と探索のトレードオフ
Stable Diffusionのシードとプロンプトの関係
トンプソンサンプリング採用の流れ
読書を支援するボット
部分観測マルコフ決定過程
逆強化学習
乳児は好奇心でハイハイする
有用
状態のベクトル空間への埋め込み
状態のベクトル化
楽観的初期値法
トンプソンサンプリング
線形バンディット
強化学習と次元削減
速読実験とU理論
学び履歴
強化学習と経営
ポジション探索の戦略
悲観的な勘違い
"
Engineer's way of creating knowledge
" the English version of my book is now available on
[Engineer's way of creating knowledge]
(C)NISHIO Hirokazu / Converted from
[Scrapbox]
at
11/23/2025, 5:35:21 PM
[Edit]