NISHIO Hirokazu[日本語][English]

層化無作為抽出

GPT5.icon 短く言うと、「[層化](/ja/%E5%B1%A4%E5%8C%96)([stratification](/ja/stratification))」して各層の中でランダムに抽出・割付けする手法のことです。正式な用語は文脈により「層化無作為抽出(stratified random sampling)」や「[層別無作為化](/ja/%E5%B1%A4%E5%88%A5%E7%84%A1%E4%BD%9C%E7%82%BA%E5%8C%96)(stratified randomization)」など。

何をする?

  1. 層化無作為抽出(統計調査)
    • 母集団を年齢・地域・性別などで層に分け、各層内で無作為抽出。
    • → 小さな層も確実に含めつつ、推定の分散を下げる。
    • (重み付き推定:各層の割合で平均を合成)
  2. 層別無作為化(臨床試験)
    • 予後因子(年齢群、施設など)で層を作り、層ごとに治療群へ無作為割付。
    • → 群間バランスを改善。しばしばブロックランダム化と併用。
  3. 層化サンプリング(モンテカルロ)
    • 積分領域を小区画(層)に分け、各層から無作為サンプル。
    • → ばらつき(分散)を下げる分散削減法。
  4. 層化交差検証(機械学習)
    • クラス比を各foldで保つように分割(Stratified K-Fold)。
    • → 不均衡データでの評価を安定化。

いつ使う?

  • 重要だが少数のサブグループを確実に含めたい
  • 推定の精度(分散)を下げたい
  • クラス不均衡を保った評価をしたい
  • 介入群間の背景差を抑えたい(試験)

注意点

  • 過度な層の細分化は各層のサンプル不足を招く
  • 抽出確率が層で異なる場合、重み付けが必要
  • 試験では層を解析モデルでも共変量調整するのが通例

(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]