NISHIO Hirokazu[Translate]
AIエージェント時代のテストドリブン
AIエージェント時代のテストドリブン

NISHIO Hirokazu
自分のDevinの期限切れ間近なクレジットを使おうと思ってE2Eテストのある自作のサービスをいじりまくらせたんだけども、FirebaseやReactのアップデートみたいな人間がやりたくないことをやり遂げててすごいなと思いました(小並感)
気軽にガンガンAIにタスクを投げられるように、やはりテストの整備が大事だという気持ちが高まったので、まずは小さなテストからCIに入れていきたい
テストは速度を落として品質を上げるためではなく、速度を上げた時のミスに早く気づくためのものと位置付けて、テスト結果を確認せずにマージしていいルールにするのが良いのではないかと考えている
で、人間が整備した高品質なテストと、それを参考にしてAIが生成したテストとがあるような感じ
どのテストがよく落ちてるかとか、高品質テストが落ちたときにSlackに通知するとかできるといいのかなぁ

安野貴博
AI生成テストを使ってGo/NoGo判断するのは今までのテストとは全然違うパラダイムですね。All greenを目指さずに投資対効果を最大化するという

>takahiroanno 高品質の人間が書いたテストと、AIが生成したテストやBrowser-useによるLLM E2Eテストなどのシグナルを混ぜながら評価し、All Greenを目指さずに(そもそもLLM E2Eテストは確率的)、Go/NoGo判断をしていくよりリスクテイクしたコスパ良いフローがありうる・・・?

>nishio AIエージェント時代のテストドリブン、すべてのテストが成功することを期待する従来の概念から、確率的識別器の束をアンサンブルしてより強い識別器にしていくって感じで、if文によるルールベースから機械学習へのパラダイムシフトに相当するシフトがありそうな気がする



関連

"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]