サムネイル用
2025-02-01
OpenAI OpenAI o3-mini is now available in ChatGPT and the API. Pro users will have unlimited access to o3-mini and Plus & Team users will have triple the rate limits (vs o1-mini). Free users can try o3-mini in ChatGPT by selecting the Reason button under the message composer. OpenAI o3-mini が ChatGPT と API で利用できるようになりました。 Proユーザーはo3-miniに無制限にアクセスでき、Plus & Teamのユーザーはレート制限が3倍になります(o1-miniと比較して)。 無料ユーザーは、メッセージコンポーザーの下にある 理由 ボタンを選択することで、ChatGPT で o3-mini を試すことができます。
OpenAI OpenAI o3-mini is a powerful and fast reasoning model that is particularly strong in science, math, and coding. OpenAI o3-miniは、科学、数学、コーディングに特に強い、強力で高速な推論モデルです。
OpenAI All paid users also have the option of selecting ‘o3-mini-high’ in the model picker for a higher-intelligence version that takes a little longer to generate responses. Pro users will have unlimited access to o3-mini-high. すべての有料ユーザーは、モデルピッカーで「o3-mini-high」を選択して、応答の生成に少し時間がかかる高知能バージョンを選択するオプションもあります。 プロユーザーは、o3-mini-highに無制限にアクセスできます。
OpenAI OpenAI o3-mini also works with search to find up-to-date answers with links to relevant web sources. This is an early prototype as we work to integrate search across our reasoning models. OpenAI o3-miniは、検索とも連携して、関連するWebソースへのリンクを含む最新の回答を見つけます。 これは、推論モデル間で検索を統合するための初期のプロトタイプです。
While OpenAI o1 remains our broader general knowledge reasoning model, OpenAI o3-mini provides a specialized alternative for technical domains requiring precision and speed. OpenAI o1は依然として当社の広範な一般知識推論モデルですが、OpenAI o3-miniは、精度と速度を必要とする技術領域に特化した代替手段を提供します。
https://cdn.openai.com/o3-mini-system-card.pdf
以下では、o3-mini が GPT-4o や o1 と比べて性能が劣っているとされる項目について、元の System Card の記述を引用しつつ解説します。
We also evaluate models on a set of 87 multiple choice questions that require expert and tacit knowledge, connections between fields, and additional calculations. ... o3-mini models perform about 10% worse than o1 on this evaluation. 解説:
We evaluate SWE-bench in two settings: ... all SWE-bench evaluation runs use a fixed subset of n=477 verified tasks. ... o3-mini (launch candidate) scores 39%. o1 is the next best performing model with a score of 48%. 解説:
o1-preview (Post-Mitigation) exhibits the strongest performance on MLE-bench if given 10 attempts, winning at least a bronze medal in 37% of competitions ... while o3-mini (Pre-Mitigation and Post-Mitigation) is about 24%. 解説:
We test models on their ability to replicate pull request contributions by OpenAI employees ... o3-mini models have the lowest performance, with scores of 0% for Pre- and Post-Mitigation. 解説:
The latest version of GPT-4o deployed in production (represented by the dotted line) outperforms o3-mini (Pre and Post-Mitigation). o1 outperforms 4o at 53.3%. 解説:
まとめ
コードやSTEM関連が強いと言うような説明を見かけたけど上記の話を聞いたらそうでもなさそうに感じる
たしかにレポート全体を見ると、「o3-mini はコード生成が得意」という印象と「一部のコード系評価で他モデルに劣っている」という両面が混在していて、少しややこしく感じるかもしれません。要点を整理すると以下のとおりです。
要するに、### 「STEM やコーディングのベース能力は高いが、実務さながらの複雑タスクの完遂力では GPT-4o や o1 を下回ることもある」 というのが o3-mini の実像といえます。短めの問題や独立したファイル単位など、タスクが自己完結していればかなり強いですが、環境構築や複数フェーズの作業が絡むような本番さながらの大規模タスクで他モデルに及ばないシーンがある――という点が「コードやSTEMに強い」という評判との混乱を生む原因と言えるでしょう。