NISHIO Hirokazu
[Translate]
トンプソンサンプリング
バンディット問題の理論とアルゴリズム
p.38
トンプソン抽出
期待値を
ベイズ推定
する
各行動の期待値最大である確率でその行動を選ぶ(
確率一致法
)
ただし、この「期待値最大である確率」の計算をやる代わりに
乱択アルゴリズム
を使う
ベイズなので期待値の分布が得られている。この分布からサンプリングをする
サンプリングした結果、値が最大であった行動を選ぶ
これで「期待値最大である確率でその行動を選ぶ」が実現される
https://hagino3000.blogspot.com/2015/07/thompson-sampling.html
https://hagino3000.blogspot.com/2016/12/linear-bandit.html
#強化学習
Tweet
Related Pages
Stable Diffusionのシードとプロンプトの関係
トンプソンサンプリング採用の流れ
日記2022-09-16
読書を支援するボット
バンディット問題の理論とアルゴリズム
強化学習
→
サイボウズラボ勉強会
×
pluralityとpolis勉強会
×
plurality
×
polis
×
polis:_scaling_deliberation_by_mapping_high_dimensional_opinion_spaces
×
ec2でpolis
×
polisのdbからデータをエクスポート
×
民主的プロセス
×
投票
×
多数決
×
デジタル民主主義
×
デジタル投票
×
意思決定
×
熟議
×
透明な意思決定プロセス
×
熟議民主主義
×
democratic_inputs_to_ai
×
anthropic
×
the_computational_democracy_project
×
opportunities_and_risks_of_llms_for_scalable_deliberation_with_polis
×
雨傘運動
×
データ大使館
×
government_as_a_service
×
領土を必要としない国家
×
エストニアで電子投票による票数が過半数になった
×
ethereum
×
世界コンピュータ
×
台湾デジタル発展省が分散型idの標準化に参与
×
シルバー民主主義
×
ドメイン投票方式
×
余命投票制度
×
一人一票
×
紙と箱の投票
×
ヤシノミ作戦
×
落選運動
×
技術的実力行使
×
代議制
×
sentiment_gathering_platform
×
センチメント
×
感情
×
納得
×
人には個人差がある
×
一つの方法で全員のニーズを満たすことはできない
×
polis体験レポート:同性婚を合法化すべきか
×
関係ない設問が多すぎる
×
後から関係が見出される
×
離れ猿
×
投票行列
×
主成分分析
×
k平均法
×
シルエット係数
×
ベータ分布
×
ベルヌーイ分布
×
共役事前分布
×
ベイズ推定
×
fisherの正確確率検定
×
超幾何関数
×
コンセンサス
×
拒否権
×
コトノハ
×
magiシステム
×
対立
×
台湾のタイムゾーンを変えるかどうかの議論の事例
×
オードリー・タンが語るデジタル民主主義
→
Polis勉強会
→
強化学習
×
機械学習勉強会
×
谷口忠大
×
椹木哲夫
×
双シェマモデル
×
自律エージェントの為の自己組織化機械学習手法の提案
×
piaget
×
シェマ理論
×
schema
×
スキーマ
×
シェマの均衡化
×
k平均法
×
クラスタ_=_シェマ
×
シェマの分化
×
身体と環境の相互作用を通した記号創発
×
環境との相互作用
×
身体と環境の相互作用
×
記号創発
×
知覚シェマ
×
行為シェマ
×
意図
×
記憶容量の有限性
×
主観的誤差
×
知覚シェマ活性度
×
距離情報からカテゴリ化を行うことの問題
×
汎化行為概念の適応的獲得
×
作られるシェマの量と身体能力の関係
×
人間はベクトル演算が弱い
×
身体能力の高いロボットは言語を作る必要がない
×
身体性
×
選好注視法
×
報酬
×
生まれつきの好み
×
自然淘汰による最適化
→
双シェマモデル プレゼン
→
強化学習
×
時間遅れ
×
観測コスト
×
simcity
×
経営ゲーム
→
明らかでないシステムを理解するゲーム
→
知識を構造化していく
×
知識を編む
×
強化学習
×
知は力なり
×
実益を生む知識が正しい知識
×
プラグマティズム
×
整合説
×
情報科学
×
機械学習
×
哲学
×
経営学
→
知識を編むプログラム
→
強化学習
×
探索と利用のトレードオフ
×
ローカルミニマム
×
イプシロングリーディ
×
降りるために登らなければならない
×
猿山の大将
×
井の中の蛙大海を知らず
×
不確実なときには楽観的に
×
george_edward_pelham_box(日本語)
×
box,_g._e.
×
フィルターバブル
×
選択と集中
×
まだ絵のない盲点カード
→
利用と探索のトレードオフ
→
まだ絵のない盲点カード
×
乱択アルゴリズム
→
変数を確率変数で置き換える
→
強化学習
→
部分観測マルコフ決定過程
→
gan
×
エネルギーベースモデル
×
自己回帰モデル
×
強化学習
→
逆強化学習
→
好奇心
×
ハイハイ
×
新しいものを見つけたい欲求
×
情報収集
×
強化学習
×
発達段階
×
たくさん読むと愚かになる
×
情報収集ばかりしても平たく並ぶだけ
→
乳児は好奇心でハイハイする
→
選択肢
×
解釈
×
事後的
×
循環参照
×
強化学習
×
間主観
→
有用
→
恒等写像を学習する
×
状態のベクトル化
×
状態遷移図の学習
×
if文の条件節を2クラス分類に置き換える
×
リカレント
×
連続状態
×
強化学習
→
状態のベクトル空間への埋め込み
→
状態
×
離散
×
シンボル
×
ベクトル空間
×
ボロノイ分割
×
k-means
×
強化学習
→
状態のベクトル化
→
ucb1
×
強化学習
×
不確実な時は楽観的に
→
楽観的初期値法
→
バンディット
×
one-hot
×
強化学習
→
線形バンディット
→
次元削減
×
次元削減は抽象化
×
抽象化は主観的
×
強化学習
×
多腕バンディット
→
強化学習と次元削減
→
既存の枠組み
×
探索と利用のトレードオフ
×
理解度
×
理解度の定義
×
u理論
×
結晶化
×
手放す
×
強化学習
×
劣化コピー
×
実益
×
読書の価値
×
2014-04
×
2014
→
速読実験とU理論
→
2008年スランプ
×
「スパゲッティモンスターの戦い」概要
×
ドラッカー
×
コーディングを支える技術
×
京大サマーデザインスクール2014
×
強化学習
×
量子コンピュータのプログラミング
→
学び履歴
→
強化学習
×
方策
×
状態
×
行動
×
遅延報酬
×
行動価値
×
グリーディ方策
×
経営
×
報酬
×
松下_幸之助
×
企業の社会的責任
×
従業員満足度
×
顧客満足度
→
強化学習と経営
→
平均志向が最悪の環境
×
イノベーティブな人材を事前に目利きできるか?
×
探索
×
強化学習
×
競合がいる時の探索戦略
×
ポジショニング
→
ポジション探索の戦略
→
強化学習
×
不確実な時には楽観的に
×
探索と利用のトレードオフ
→
悲観的な勘違い
"
Engineer's way of creating knowledge
" the English version of my book is now available on
[Engineer's way of creating knowledge]
(C)NISHIO Hirokazu / Converted from
[Scrapbox]
at
11/23/2025, 5:47:08 PM
[Edit]