層化無作為抽出

短く言うと、「[層化](/ja/%E5%B1%A4%E5%8C%96)([stratification](/ja/stratification))」して各層の中でランダムに抽出・割付けする手法のことです。正式な用語は文脈により「層化無作為抽出(stratified random sampling)」や「[層別無作為化](/ja/%E5%B1%A4%E5%88%A5%E7%84%A1%E4%BD%9C%E7%82%BA%E5%8C%96)(stratified randomization)」など。
何をする?
- 層化無作為抽出(統計調査)
- 母集団を年齢・地域・性別などで層に分け、各層内で無作為抽出。
- → 小さな層も確実に含めつつ、推定の分散を下げる。
- (重み付き推定:各層の割合で平均を合成)
- 層別無作為化(臨床試験)
- 予後因子(年齢群、施設など)で層を作り、層ごとに治療群へ無作為割付。
- → 群間バランスを改善。しばしばブロックランダム化と併用。
- 層化サンプリング(モンテカルロ)
- 積分領域を小区画(層)に分け、各層から無作為サンプル。
- → ばらつき(分散)を下げる分散削減法。
- 層化交差検証(機械学習)
- クラス比を各foldで保つように分割(Stratified K-Fold)。
- → 不均衡データでの評価を安定化。
いつ使う?
- 重要だが少数のサブグループを確実に含めたい
- 推定の精度(分散)を下げたい
- クラス不均衡を保った評価をしたい
- 介入群間の背景差を抑えたい(試験)
注意点
- 過度な層の細分化は各層のサンプル不足を招く
- 抽出確率が層で異なる場合、重み付けが必要
- 試験では層を解析モデルでも共変量調整するのが通例