AIエージェント時代のテストドリブン

from 日記2025-04-28 AIエージェント時代のテストドリブン

デジタル民主主義2030 Slack NISHIO Hirokazu 自分のDevinの期限切れ間近なクレジットを使おうと思ってE2Eテストのある自作のサービスをいじりまくらせたんだけども、FirebaseやReactのアップデートみたいな人間がやりたくないことをやり遂げててすごいなと思いました(小並感) 気軽にガンガンAIにタスクを投げられるように、やはりテストの整備が大事だという気持ちが高まったので、まずは小さなテストからCIに入れていきたいテストは速度を落として品質を上げるためではなく、速度を上げた時のミスに早く気づくためのものと位置付けて、テスト結果を確認せずにマージしていいルールにするのが良いのではないかと考えているで、人間が整備した高品質なテストと、それを参考にしてAIが生成したテストとがあるような感じどのテストがよく落ちてるかとか、高品質テストが落ちたときにSlackに通知するとかできるといいのかなぁ

安野貴博 AI生成テストを使ってGo/NoGo判断するのは今までのテストとは全然違うパラダイムですね。All greenを目指さずに投資対効果を最大化するという

takahiroanno 高品質の人間が書いたテストと、AIが生成したテストやBrowser-useによるLLM E2Eテストなどのシグナルを混ぜながら評価し、All Greenを目指さずに（そもそもLLM E2Eテストは確率的）、Go/NoGo判断をしていくよりリスクテイクしたコスパ良いフローがありうる・・・？

nishio AIエージェント時代のテストドリブン、すべてのテストが成功することを期待する従来の概念から、確率的識別器の束をアンサンブルしてより強い識別器にしていくって感じで、if文によるルールベースから機械学習へのパラダイムシフトに相当するシフトがありそうな気がする

if文から機械学習への道