manus

NISHIO Hirokazu [Translate]

Manus
2025-05-03
使えるようになったけど何に使ったらいいのかよくわかってない
/mtane0412/Manusを試す

「GAIAベンチマークでOpenAI Deep Researchを超えた」という文言が一人歩きしているが意味がわからん
>GAIA は、実世界の問題解決における汎用型AIアシスタントを評価するためのベンチマークです。
既存の MMLU や ARC など「難問クイズ型」の逆を行き、“人間なら簡単” な実務的課題でギャップを測る点が特徴
評価指標
Accuracy（正答率）: 質問ごとに完全一致か否かで採点
コスト指標: API 料金など実行コストも併記し、性能-コスト曲線を提示

「賢いけど雑なので時々ミスをするエージェント」と「賢くないがミスせず答えのあるタスクをきちんとこなすエージェント」の後者を評価するベンチマーク
ハルシネーションを増やしてでも創発を増やそうとしているOpenAIとは狙ってるものが違うね
o3はハルシネーションが多いので正解のないタスク向き
まあ社会を支える安定的部品になるにはミスをしないことは重要

"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at 1/2/2026, 6:59:00 PM[Edit]

Related Pages