NISHIO Hirokazu
[Translate]
AlphaGo Zero
AlphaGo
とは別物
人間の記譜データを使わない
学習データの違い
AlphaGo
人間のプロ棋士の棋譜で教師あり学習
その後、自己対戦で強化学習
AlphaGo Zero
棋譜を一切使わない
ルールだけを与え、自己対戦のみで学習
モデル構成の違い
AlphaGo
方策ネットワーク(Policy)
価値ネットワーク(Value)
さらに高速なロールアウトなど複数要素
AlphaGo Zero
単一のニューラルネットが
次の一手の確率(方策)
勝率(価値)
を同時に出力
Tweet
Related Pages
→
日記2023-11-27
×
llm生成テキストの透かし
×
alphago
×
世界
×
chatgpt
×
データを作るところが大事になる
×
定義された世界
×
llmのプログラミング能力は他の能力より伸びやすい
×
人間が全部直接入力するスタイルのプログラミングが駆逐されていく
×
考えてるだけで行動してない人
×
「考える」は世界のサンプリングではない
×
実装なき思想は、もう要らない。
→
世界からのサンプリング
→
alphago
→
AIとヒトの共進化
"
Engineer's way of creating knowledge
" the English version of my book is now available on
[Engineer's way of creating knowledge]
(C)NISHIO Hirokazu / Converted from
[Scrapbox]
at
1/12/2026, 1:10:42 AM
[Edit]