NISHIO Hirokazu[日本語][English]

平均志向が最悪の環境

2017-11-27 平均が最適である環境と平均が最悪である環境の差を数理モデルで表現できたら面白そう。

10万回の実験結果

  • 上位70%が報酬を受け取る条件で、観測したほかの人の行動の平均に自分の行動を近づける戦略(平均志向戦略)を取った人が報酬を受け取る確率は85%だったのに対し、平均から遠ざかる方向に行動を変える戦略(反平均志向戦略)の人が報酬を受け取る確率は60%
  • 逆に上位30%が報酬を受け取る条件では、平均志向戦略が15%だったのに対して、反平均志向戦略は40%だった。

つまり

きっかけ ochyai 落合 陽一

平均が最適である環境と平均が最悪である環境の差を数理モデルで表現できたら面白そうだと考えた。

モデル化

  • N人のエージェントがいる
  • 各エージェントはD次元の「行動ベクトル」を持っている。これが彼らの行動を表現するものとする。
  • 初期状態で行動ベクトルは正規分布に従う
  • 各エージェントは、他の人の行動を観察することができる
    • どう観察できることにするかは色々設計の選択肢があるが、確率pで観察できることにする
    • 行動の近い人だけを観察できる設計も面白そう
  • 各エージェントは、他の人の行動を観察した結果を元に、自分の行動を修正できる
    • どう修正するかも設計の選択肢がある
    • 今回は「観測した情報の平均値を求め、その平均に近づく/遠ざかる方向に自分の行動を更新する」とする
    • 平均でなくメジアンにしたり、分布の形状を見たりしても面白い
    • 行動をa、平均をm、学習率ηを 0.5 または -1 としたら:
    • $a_{new} = a + \eta (m - a)$
  • 報酬は事前に知らされないランダムなベクトルが1本評価軸として選ばれ、その軸方向の値が大きい方から順に q * N 人に与えられる
    • 「成績上位10%に報酬」というイメージ
    • q = 90% にすることで「成績下位10%にデメリットが与えられる」という状況にもなる。
    • この非線形性が肝だと思うが変えて実験してみるのも面白いかも。
  • この実験を10万回実行して、報酬を受け取る確率が行動修正戦略によってどう変わるかを観察する

p=0.5, eta=0, 0.5, -1.0:

# q = 0.7
0.70119  0.84714  0.60523
# q = 0.3
0.29822  0.15266  0.39567

ソース


(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]