NISHIO Hirokazu[日本語][English]

出現集中

英語ではadaptation

  • Empirical estimates of adaptation: the chance of two noriegas is closer to p/2 than p^2
  • タイトルのnoriegaは政治家の名前。「ケネディ」みたいなもの。
  • ある単語が出現する確率がpの時、2回出現する確率はp^2だと思いがち
  • しかし現実には一度出現した単語は高頻度で出現する
  • これがどの程度高頻度になるのか
  • 意外なことにK回出現があった条件付きでのK+1回出現する確率$Pr(k\ge2|k\ge1)$は、
    • 1回出現する確率$Pr(k\ge1)$によらない
    • $Pr(k\ge1) = DF_1/D$
    • $Pr(k\ge2|k\ge1) = (DF_2/D)/Pr(k\ge1) = DF_2/DF_1$ image
  • 同じ出現確率の単語を比べると、例えばKennedyはexceptより高い出現集中が見られる
    • image
    • 未踏テキスト情報中のキーワードの抽出システム開発では、論文の部分文字列の分布と、人間がキーワードに選んだ文字列の分布を比較して、キーワード分布がここの話と同じように確率に依存しない分布になっていることを示している
    • ここの話を踏まえると、単語の分布だけでもそういう分布になって、キーワードだと上の方にある感じなのでは。単語の分布とキーワードの分布で比較したい。
    • 逆に言えば、任意の文字列に対してDF2/ DFは、その出現頻度と独立な「キーワードらしさ」の指標になる

(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]