NISHIO Hirokazu[Translate]
Manus
2025-05-03
使えるようになったけど何に使ったらいいのかよくわかってない

「GAIAベンチマークでOpenAI Deep Researchを超えた」という文言が一人歩きしているが意味がわからん
>GAIA は、実世界の問題解決における汎用型AIアシスタントを評価するためのベンチマークです。
o3既存の MMLU や ARC など「難問クイズ型」の逆を行き、“人間なら簡単” な実務的課題でギャップを測る点が特徴
評価指標
Accuracy(正答率): 質問ごとに完全一致か否かで採点
コスト指標: API 料金など実行コストも併記し、性能-コスト曲線を提示

「賢いけど雑なので時々ミスをするエージェント」と「賢くないがミスせず答えのあるタスクをきちんとこなすエージェント」の後者を評価するベンチマーク
ハルシネーションを増やしてでも創発を増やそうとしているOpenAIとは狙ってるものが違うね
まあ社会を支える安定的部品になるにはミスをしないことは重要

"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]