NISHIO Hirokazu[Translate]
多元的ベンチマークの3類型
o3
Multi-objective benchmark
概要: 複数の指標 O = {o₁,…} を同時に提示し、モデル性能を Pareto improvement 観点で評価する枠組み。
キーポイント
すべての指標を別個に公開し、必要に応じて commensurating function f で重み付け。
指標間のトレードオフを可視化するため、単一スコアに潰さず「フロント」全体を示す。
メリット: 有用性 vs. 無害性 など暗黙の折衝を明示化。
課題: 指標数が多いと計測コスト増、どの指標を含めるかの設計判断が重い。

Trade-off steerable benchmark
概要: 単一モデルを、推論時に任意の steering commensurating function ℱ(例: 線形和 w·O)へ誘導できるかを測る。
キーポイント
モデルが異なる重み付け f ∈ ℱ に応じて最適応答を出せる steerability を評価。
報酬例: ∑₍f∈ℱ₎ f(ℳ_f) — 各重みでの性能を合算。
メリット: デプロイ後にユーザ/状況ごとに動的調整可能な柔軟性を担保。
課題: 値の incommensurability(価値は交換不可という哲学的立場)とは相容れない。

Jury-pluralistic benchmark
概要: 多様な評価者集合 jury / population J = {j₁,…} を明示し、個別効用を welfare function w で統合して評価。
キーポイント
各評価者関数 jᵢ(x,y) を個別に測定し、Utilitarian や Rawlsian など任意の w で集約。
「誰の価値観に沿うか」を透明化し、公平性を調整可能。
メリット: Democratic AI Alignment や合意形成支援で有用。
課題: 評価データ収集コスト、tyranny of the majority や fanatical influence など福祉関数選択のバイアス。


"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]