>ScottWu46 GPT-4.5 has been awesome to work with. On our agentic coding benchmarks it already shows massive improvements over o1 and 4o. Excited to see the models' continued trajectory on code!
>
> One interesting data point: though GPT-4.5 and Claude 3.7 Sonnet score similarly on our overall benchmark, we find that GPT-4.5 spikes more heavily on tasks involving architecture and cross-system interactions whereas Claude 3.7 Sonnet spikes more on raw coding and code editing.
>
> As AI takes on increasingly complex tasks, we believe that multi-model agents that incorporate each model’s unique strengths will perform best.
→devin.ai×Devinを見る会×devin.aiを試す2024×Devin.aiを試す2/1~×miro_api×roo-cline×踏める地雷は全部踏む×aiエージェント飲み会×browser-use×未練×オーケストレーション層×scott_wu×Meeting with Scott Wu×百聞百見は一験にしかず×表層的な知識×互換性×深い理解×どの部分が有益であり続けるのかは事前に知り得ない×表層的な知識を飛ばして深い理解だけ得ることはできない×グラフdb×構造的プログラミング×旅行×o1_pro×人間の仕事:_aiが書いたものを無慈悲に捨てる×塑像ではなく彫刻×マイナスのデザイン×試行錯誤の自動化×devinを見る会closing×aiエージェントのwriteのスコープ×devinにコードリーディングさせる×Devinで4万溶かす方法×aiエージェントがもたらす属人性→