利用と探索のトレードオフ

強化学習で使われる概念。
- exploitation-exploration trade-offs
- 利用と探索のどっちを先に言うかや「exploitation」をどう訳すかにはバリエーションがある
  - 探索と利用のトレードオフ(自分自身も表記ゆれしてた)
  - 利用と探索のトレードオフ 62200 98
  - 探索と利用のトレードオフ 50900 294
  - 探索と知識利用のジレンマ
- https://www.slideshare.net/nishio/1-70974083#14
有用そうな選択肢を選んでいると、他の選択肢がより有用であることを発見する機会が失われる。
- 過去の経験からの最適解を選んでいると新しい探索が行われなくなり、ローカルミニマムにはまる
  - イプシロングリーディ: 探索のためにランダム性を導入する
一方、より有用な選択肢を求めて探索を繰り返していると、せっかく見つけた有用な選択肢から利益を得ることができない。
ローカルミニマムから別のミニマムを探すためには、一度上がらなければならない。
- see 降りるために登らなければならない
猿山の大将。井の中の蛙大海を知らず。
see 不確実なときには楽観的に
強化学習の分野で大きく発展したが、初出はもっと古い
- George Edward Pelham Box(日本語)
- Box, G. E., 1954. The exploration and exploitation of response surfaces: some general considerations and examples. Biometrics, 10(1), pp.16-60.
組織学習の領域でも使われている
- March, J.G., 1991. Exploration and exploitation in organizational learning. Organization science, 2(1), pp.71-87.
関連
- フィルターバブルフィルターバブル - Wikipedia
  - 自分の思想にあわせたフィルタを通して情報を得ることによって、思想のローカルミニマムにはまる
- 選択と集中
  - 探索コストを削減する口実に使われがち

#まだ絵のない盲点カード 1031

BELOW_IS_AI_GENERATED

利用と探索のトレードオフ

2023-09-05 01:15

ノートの要約

強化学習における「探索と利用のトレードオフ」について説明しています。有用な選択肢を選ぶことで他の可能性を見逃す可能性があり、また新たな選択肢を探すことで既知の有用な選択肢からの利益を得られない可能性があります。この概念は、組織学習や情報フィルタリングなど、他の領域でも適用されています。

フラグメントとの関連性

フラグメント「第4刷に向けての修正差分」は、探索と利用のトレードオフについて述べており、ノートと直接関連しています。具体的には、「過去の経験から一番良いと思う選択肢ばかりを選んでいたのでは、もっと良い選択肢を見つけることができません。それは探索が足りないのです。」という部分が、ノートの主要なテーマと一致しています。

深い思考

探索と利用のトレードオフは、新たな可能性を追求することと既知の有用な選択肢からの利益を最大化することの間のバランスを示しています。これは、情報を得る方法や学習方法を選択する際に重要な考慮事項となります。

思考の要約とタイトル

「探索と利用のトレードオフは、新たな可能性と既知の利益の間のバランスを示す」

extra info

titles: ["第4刷に向けての修正差分", "英語版作成に伴う推敲(2,3章)", "利用と探索のトレード・オフ", "(2.2.3.1) Exploration-exploitation tradeoff", "🌀名詞化を無効にする", "フローと利用と探索", "エンジニアの知的生産術全階層目次", "(6.2.2.2) Advantages and disadvantages of framework"] generated: 2023-09-05 01:15

(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]