NISHIO Hirokazu
[Translate]
部分観測マルコフ決定過程
POMDP
強化学習
https://www.slideshare.net/nishio/4-71709532
https://www.slideshare.net/nishio/5-79364176
Tweet
Related Pages
pKeichobot
CICERO by Meta
pKeicho
強化学習
→
強化学習
×
機械学習勉強会
×
谷口忠大
×
椹木哲夫
×
双シェマモデル
×
自律エージェントの為の自己組織化機械学習手法の提案
×
piaget
×
シェマ理論
×
schema
×
スキーマ
×
シェマの均衡化
×
k平均法
×
クラスタ_=_シェマ
×
シェマの分化
×
身体と環境の相互作用を通した記号創発
×
環境との相互作用
×
身体と環境の相互作用
×
記号創発
×
知覚シェマ
×
行為シェマ
×
意図
×
記憶容量の有限性
×
主観的誤差
×
知覚シェマ活性度
×
距離情報からカテゴリ化を行うことの問題
×
汎化行為概念の適応的獲得
×
作られるシェマの量と身体能力の関係
×
人間はベクトル演算が弱い
×
身体能力の高いロボットは言語を作る必要がない
×
身体性
×
選好注視法
×
報酬
×
生まれつきの好み
×
自然淘汰による最適化
→
双シェマモデル プレゼン
→
強化学習
×
時間遅れ
×
観測コスト
×
simcity
×
経営ゲーム
→
明らかでないシステムを理解するゲーム
→
知識を構造化していく
×
知識を編む
×
強化学習
×
知は力なり
×
実益を生む知識が正しい知識
×
プラグマティズム
×
整合説
×
情報科学
×
機械学習
×
哲学
×
経営学
→
知識を編むプログラム
→
強化学習
×
探索と利用のトレードオフ
×
ローカルミニマム
×
イプシロングリーディ
×
降りるために登らなければならない
×
猿山の大将
×
井の中の蛙大海を知らず
×
不確実なときには楽観的に
×
george_edward_pelham_box(日本語)
×
box,_g._e.
×
フィルターバブル
×
選択と集中
×
まだ絵のない盲点カード
→
利用と探索のトレードオフ
→
次元の呪い
×
高次元空間において正規分布はほぼ超球面上の一様分布
×
悲観的な勘違い
×
利用と探索のトレードオフ
×
c3:_computer_created_cats
×
ベルヌーイ分布
×
トンプソンサンプリング
×
強化学習
×
トンプソンサンプリング採用の流れ
×
良いの定義
→
Stable Diffusionのシードとプロンプトの関係
→
多腕バンディット問題
×
強化学習
×
悲観的な勘違い
×
利用と探索のトレードオフ
×
トンプソンサンプリング
×
画家の発見
→
トンプソンサンプリング採用の流れ
→
速読について考える
×
べき→why?
×
未知のものに出会うことを目標にしてはいけない
×
フロー理論
×
ストレッチゴールの設定
×
強化学習
×
k-means
×
次元削減注意
×
時系列の入力からのパターン発見
×
状態の分散表現
×
状態のベクトル化
×
q関数
×
海馬の時間圧縮
×
トンプソンサンプリング
×
確信度
×
知性体
→
読書を支援するボット
→
gan
×
エネルギーベースモデル
×
自己回帰モデル
×
強化学習
→
逆強化学習
→
好奇心
×
ハイハイ
×
新しいものを見つけたい欲求
×
情報収集
×
強化学習
×
発達段階
×
たくさん読むと愚かになる
×
情報収集ばかりしても平たく並ぶだけ
→
乳児は好奇心でハイハイする
→
選択肢
×
解釈
×
事後的
×
循環参照
×
強化学習
×
間主観
→
有用
→
恒等写像を学習する
×
状態のベクトル化
×
状態遷移図の学習
×
if文の条件節を2クラス分類に置き換える
×
リカレント
×
連続状態
×
強化学習
→
状態のベクトル空間への埋め込み
→
状態
×
離散
×
シンボル
×
ベクトル空間
×
ボロノイ分割
×
k-means
×
強化学習
→
状態のベクトル化
→
ucb1
×
強化学習
×
不確実な時は楽観的に
→
楽観的初期値法
→
バンディット問題の理論とアルゴリズム
×
トンプソン抽出
×
ベイズ推定
×
確率一致法
×
乱択アルゴリズム
×
強化学習
→
トンプソンサンプリング
→
バンディット
×
one-hot
×
強化学習
→
線形バンディット
→
次元削減
×
次元削減は抽象化
×
抽象化は主観的
×
強化学習
×
多腕バンディット
→
強化学習と次元削減
→
既存の枠組み
×
探索と利用のトレードオフ
×
理解度
×
理解度の定義
×
u理論
×
結晶化
×
手放す
×
強化学習
×
劣化コピー
×
実益
×
読書の価値
×
2014-04
×
2014
→
速読実験とU理論
→
2008年スランプ
×
「スパゲッティモンスターの戦い」概要
×
ドラッカー
×
コーディングを支える技術
×
京大サマーデザインスクール2014
×
強化学習
×
量子コンピュータのプログラミング
→
学び履歴
→
強化学習
×
方策
×
状態
×
行動
×
遅延報酬
×
行動価値
×
グリーディ方策
×
経営
×
報酬
×
松下_幸之助
×
企業の社会的責任
×
従業員満足度
×
顧客満足度
→
強化学習と経営
→
平均志向が最悪の環境
×
イノベーティブな人材を事前に目利きできるか?
×
探索
×
強化学習
×
競合がいる時の探索戦略
×
ポジショニング
→
ポジション探索の戦略
→
強化学習
×
不確実な時には楽観的に
×
探索と利用のトレードオフ
→
悲観的な勘違い
"
Engineer's way of creating knowledge
" the English version of my book is now available on
[Engineer's way of creating knowledge]
(C)NISHIO Hirokazu / Converted from
[Scrapbox]
at
11/23/2025, 4:47:05 PM
[Edit]