強化学習で使われる概念。
有用そうな選択肢を選んでいると、他の選択肢がより有用であることを発見する機会が失われる。
一方、より有用な選択肢を求めて探索を繰り返していると、せっかく見つけた有用な選択肢から利益を得ることができない。
ローカルミニマムから別のミニマムを探すためには、一度上がらなければならない。
see 不確実なときには楽観的に
強化学習の分野で大きく発展したが、初出はもっと古い
組織学習の領域でも使われている
関連
#まだ絵のない盲点カード 1031
BELOW_IS_AI_GENERATED
2023-09-05 01:15
強化学習における「探索と利用のトレードオフ」について説明しています。有用な選択肢を選ぶことで他の可能性を見逃す可能性があり、また新たな選択肢を探すことで既知の有用な選択肢からの利益を得られない可能性があります。この概念は、組織学習や情報フィルタリングなど、他の領域でも適用されています。
フラグメント「第4刷に向けての修正差分」は、探索と利用のトレードオフについて述べており、ノートと直接関連しています。具体的には、「過去の経験から一番良いと思う選択肢ばかりを選んでいたのでは、もっと良い選択肢を見つけることができません。それは探索が足りないのです。」という部分が、ノートの主要なテーマと一致しています。
探索と利用のトレードオフは、新たな可能性を追求することと既知の有用な選択肢からの利益を最大化することの間のバランスを示しています。これは、情報を得る方法や学習方法を選択する際に重要な考慮事項となります。
「探索と利用のトレードオフは、新たな可能性と既知の利益の間のバランスを示す」
titles: ["第4刷に向けての修正差分", "英語版作成に伴う推敲(2,3章)", "利用と探索のトレード・オフ", "(2.2.3.1) Exploration-exploitation tradeoff", "🌀名詞化を無効にする", "フローと利用と探索", "エンジニアの知的生産術 全階層目次", "(6.2.2.2) Advantages and disadvantages of framework"]
generated: 2023-09-05 01:15