Manus
2025-05-03
使えるようになったけど何に使ったらいいのかよくわかってない
「GAIAベンチマークでOpenAI Deep Researchを超えた」という文言が一人歩きしているが意味がわからん
>GAIA は、実世界の問題解決における汎用型AIアシスタントを評価するためのベンチマークです。

既存の MMLU や ARC など「難問クイズ型」の逆を行き、“人間なら簡単” な実務的課題でギャップを測る点が特徴
評価指標
Accuracy(正答率): 質問ごとに完全一致か否かで採点
コスト指標: API 料金など実行コストも併記し、性能-コスト曲線を提示
「賢いけど雑なので時々ミスをするエージェント」と「賢くないがミスせず答えのあるタスクをきちんとこなすエージェント」の後者を評価するベンチマーク
ハルシネーションを増やしてでも創発を増やそうとしているOpenAIとは狙ってるものが違うね
まあ社会を支える安定的部品になるにはミスをしないことは重要