トンプソンサンプリング

NISHIO Hirokazu [Translate]

トンプソンサンプリング
バンディット問題の理論とアルゴリズム p.38 トンプソン抽出
期待値をベイズ推定する
各行動の期待値最大である確率でその行動を選ぶ(確率一致法)
ただし、この「期待値最大である確率」の計算をやる代わりに乱択アルゴリズムを使う
ベイズなので期待値の分布が得られている。この分布からサンプリングをする
サンプリングした結果、値が最大であった行動を選ぶ
これで「期待値最大である確率でその行動を選ぶ」が実現される

https://hagino3000.blogspot.com/2015/07/thompson-sampling.html
https://hagino3000.blogspot.com/2016/12/linear-bandit.html

#強化学習

→サイボウズラボ勉強会×pluralityとpolis勉強会×plurality×polis×polis:_scaling_deliberation_by_mapping_high_dimensional_opinion_spaces×ec2でpolis×polisのdbからデータをエクスポート×民主的プロセス×投票×多数決×デジタル民主主義×デジタル投票×意思決定×熟議×透明な意思決定プロセス×熟議民主主義×democratic_inputs_to_ai×anthropic×the_computational_democracy_project×opportunities_and_risks_of_llms_for_scalable_deliberation_with_polis×雨傘運動×データ大使館×government_as_a_service×領土を必要としない国家×エストニアで電子投票による票数が過半数になった×ethereum×世界コンピュータ×台湾デジタル発展省が分散型idの標準化に参与×シルバー民主主義×ドメイン投票方式×余命投票制度×一人一票×紙と箱の投票×ヤシノミ作戦×落選運動×技術的実力行使×代議制×sentiment_gathering_platform×センチメント×感情×納得×人には個人差がある×一つの方法で全員のニーズを満たすことはできない×polis体験レポート:同性婚を合法化すべきか×関係ない設問が多すぎる×後から関係が見出される×離れ猿×投票行列×主成分分析×k平均法×シルエット係数×ベータ分布×ベルヌーイ分布×共役事前分布×ベイズ推定×fisherの正確確率検定×超幾何関数×コンセンサス×拒否権×コトノハ×magiシステム×対立×台湾のタイムゾーンを変えるかどうかの議論の事例×オードリー・タンが語るデジタル民主主義→

Polis勉強会

→強化学習×機械学習勉強会×谷口忠大×椹木哲夫×双シェマモデル×自律エージェントの為の自己組織化機械学習手法の提案×piaget×シェマ理論×schema×スキーマ×シェマの均衡化×k平均法×クラスタ_=_シェマ×シェマの分化×身体と環境の相互作用を通した記号創発×環境との相互作用×身体と環境の相互作用×記号創発×知覚シェマ×行為シェマ×意図×記憶容量の有限性×主観的誤差×知覚シェマ活性度×距離情報からカテゴリ化を行うことの問題×汎化行為概念の適応的獲得×作られるシェマの量と身体能力の関係×人間はベクトル演算が弱い×身体能力の高いロボットは言語を作る必要がない×身体性×選好注視法×報酬×生まれつきの好み×自然淘汰による最適化→

双シェマモデルプレゼン

→強化学習×時間遅れ×観測コスト×simcity×経営ゲーム→

明らかでないシステムを理解するゲーム

→知識を構造化していく×知識を編む×強化学習×知は力なり×実益を生む知識が正しい知識×プラグマティズム×整合説×情報科学×機械学習×哲学×経営学→

知識を編むプログラム

→強化学習×探索と利用のトレードオフ×ローカルミニマム×イプシロングリーディ×降りるために登らなければならない×猿山の大将×井の中の蛙大海を知らず×不確実なときには楽観的に×george_edward_pelham_box(日本語)×box,_g._e.×フィルターバブル×選択と集中×まだ絵のない盲点カード→