Devin.aiを試してる過程のログ
長くなってきたので切り出した
old title: Devin.aiを試す
2025-01-02 Session Usage Limitについて
Devin went to sleep due to session usage limits.
説明を読むとセッション単位のように読めますが、最後のユーザーの発言以降で使用できる ACUs の上限 (by teramoto)
nishio 「さて、いよいよ金銭感覚が麻痺して参りました。一歩先の未来を生きるためのコストとして受け入れつつも、たまに冷静になる瞬間が恐ろしいです。」 あーあー聞こえないーー(1ヶ月のトークンを1週間で使い切っておかわりした人) nishio 冗談はさておき、適切な金銭感覚とは何かは難しいところだな。 最初にChatGPTに3000円課金した時には「技術書1冊分だ」と感じていた。それを毎月支払い続けるようになった時には「業務効率化のツールだ」と感じていた。 それが今はDevinに対して「人だ」と思ってる。人だと考えるとまだ安い。
nishio 個人的タスク管理のためにDevinに作らせてたもの、Devinの書いたドキュメントが結構面白いのでデータ部分を分離して公開しました https://github.com/nishio/ai_project_manager
ソースコード中のすべての日本語コメントを英語にするという泥臭タスクが行われた
takahiroanno Devinを見ていると、AIが環境構築、実装、認証、テストを遂行できる確率を少しでもあげられるような自然言語でのドキュメントの整備 / 知識の整備はもはやフレームワークの一部になりそう
teramotodaiki: Devin観察日記 3日目|Daiki Teramoto
Devin観察日記 4日目|Daiki Teramoto Devin観察日記 5日目|Daiki Teramoto Devin観察日記 6日目|Daiki Teramoto Devin観察日記 7日目|Daiki Teramoto
teramotodaiki 年末年始にDevinをヘビーユースできて本当によかった。 ちょうど2年前にChatGPTを初めて触った時と同じで、ゲームのルールが変わるという確信が持てた。 周囲の人に比べると僕は楽観的らしく、「自分の仕事がAIに奪われる」ことを怯えたりもしていないんだけど、そこの解像度はかなり上がったと思う。
teramotodaiki HCIのHはHumanだけど、その定義が曖昧になってくるんだろうな〜 裏のLLMがみんな横並びだとUIしか張り合えるところが無いから、UIの重要性は更に増していく。しかし、そのUIは必ずしもHumanの為ではない…という感じでカオス
2025-01-07 「混乱した!」とAIに行ったらAIが懇切丁寧に管理してくれた...
少し手直ししたらタスクの依存関係グラフが出力されたけどイマイチだな
人間の仕事
現時点での感想
見やすいかどうかはさておきMiroで可視化するスクリプトを作ってくれた
Devinに「AIと人間が共同編集可能な箇条書きエディタを作って」って言って放置したらなんか作ってた
teramotodaiki Devin、開発方針の異なる複数のプロジェクトを回してると、Knowledgeが役に立たなくなるな teramotodaiki Knowledgeがすべて並列なので、「このリポジトリ限定の知識です」みたいに書いてても大して意味がない。別リポジトリのルールをそのまま参照してしまう nishio やっぱ各プロジェクトのドキュメントに書いて読ませるのの方が扱いやすい気がするなぁ teramotodaiki ですねぇ。Knowledgeに入れるのは、「リポジトリの中に全ての情報を残すこと」「いつでもセッションを引き継げる準備をすること」…みたいな、Devinの性質にちなんだメタな内容だけを入れておくのが良いのかも? nishio 「アクセストークンや秘密鍵をリポジトリにコミットするな」だね! whitphx_ja Pin to Repositoryしてもダメ? teramotodaiki こんなのあったんですね!!!試してみます
nishio 知見が集まる!
teramotodaiki TLがDeepSeek-V3+Clineで盛り上がる中、うちのDevinはさっき Firebaseプロジェクトのサービスアカウントを取り違えて別アプリにデプロイして全てを破壊したよ。かわいいね teramotodaiki 開発環境を破壊して給料1750円請求されるの冷静に考えるとヤバいけど、もはや慣れてきつつある。今のうちに踏める地雷は全部踏むぞ!!!の勢い
akiroom 自律型AIエージェントが実行計画を立てて料理を注文していく様と試行錯誤に超絶盛り上がって、精神が加速した。今日の飲み会は2023年3月の言語処理学会中にGPT-4が公開されて沖縄で熱い夜を過ごした時以来だった。 Devin観察日記 9日目|Daiki Teramoto akiroom Devinのことをアプリ開発エージェントぐらいに捉えていたけど、これはもう汎用自律型AIエージェントそのものだと深く感動した akiroom 今日、飲み会でDevinに衝撃を受ける前までの感想を雑に書いてみた。実は正月から月額500ドル(7万5000円)をポケットマネーで支出して実際にガチャガチャ触ってみていた。
teramotodaiki GAME START ゲーム開始
nishio 僕もCosenseのMCPサーバ作るゲームしようかな()
hrjn devin 便利だな・・・簡単なタスクは完全にこなせてる。 高いけど・・・ hrjn けど、ワンちゃんこれくらいだと、cursorのcomposer agentでもいけるのかな。いけそうだけど、slackですむのがらくと言えばらくなのかな。 nishio Slackを既に使ってる会社にとっては「人間とAIの1対1のブラックボックス」ではなく「人間のAIが会話しながら進めることで各タスクの状況が可視化される」というところの効用が大きそう。特に新入社員とかリモートワークとかの人に使ってもらうと良さそう hrjn まだあんまり触ってないけど、今のところcursorとかのcomposer agentの方がレスが早いので楽ではありますね。 devinは一応動作確認してるっぽいのでその点が優位なのかもしれないけど、頼んでることが今のところ簡単すぎるので差が実感できてない。 タスク状況の可視化はそうかもなとは思うけど、マメにWIPでPR作ってpushしてねっていっておけば人間でもかわらんかなとか思わないでもない。
nishio 「新人のオンボーディングプロセス」などの「開発プロセス」という「人間を部品に使うシステム」のテストに、今までは「知識のない新人」という希少なリソースが必要だったが、Devinが人間のエミュレーションをしてくれるのでシステムの改善速度が向上する。こういうパターンの生産性向上も面白い nishio 一段階抽象化すると「人間が部品であるシステムの改善を人間のエミュレーターを使ってテストできて、その人間エミュレーターはすべての作業ステップが記録されて、考えていることも可視化される」という状況ね。これは使い所によっては結構面白い。 nishio もう一つ面白いパターンは「人間が裏にいるMVP」の人間の部分をDevinにしてユーザテストをすること。雑で曖昧な指示で動かして「実際に使ってみる」ことで、何が明確化されるべきなのかが特定される。ユーザの振る舞いを観察するフェーズに進むためのコストが下がってリーン的進め方がしやすくなる
2025-01-13
1/12
nishio 「AIにプログラミングをさせて働かなくても金が稼げるようになるか?」 「もし人間不要で稼げるシステムが実現されたらみんながそれをやるので、それに必要となるリソースが逼迫し、価格が上昇して『儲からない』水準になるだろう」 という話をした nishio だから均衡に至るまでの過渡期に金を得るか、金でないリソースを得るか、すでに持ってるリソースによって参入障壁があるドメインでやるか、という選択肢しかない
https://github.com/nishio/contrast-game/blob/main/REPORT.md
2025年1月時点の自律AIエージェントがどの程度自律的に実装をできるのかについて実験をした。 2025-01-10~12のプログラミングシンポジウムにおいて「コントラスト」というゲームが紹介された。チャットに貼られたルールを元に曖昧さがないかAIにレビューさせたり、有効な戦略を考えさせたりする遊びをしているうちに、これを自律AIエージェントに実装させてみようというアイデアが生まれた。 「プロシンで話題になったゲームの対戦サーバをプロシン期間中にAIが完成させる」ことができるかどうか?これを検証した。
Devin観察日記 11日目|Daiki Teramoto Devin観察日記 12日目|Daiki Teramoto
ゼロベースで作らせるのではなく、最初から動くテンプレを与える 早い段階でテストやCIを整備して、フィードバックループを回させる やっぱそうだよね感
Devinの話ではないが、AIがコードを書くのに適したコーディング規約があるのではという話
masuidrive 例えばPythonのコードをSonnetに書かせている時、asyncのメソッドを定義すると、呼び出すときにawaitを忘れることがあるから「非同期メソッドの名前には最後に_asyncをつけること」とかって書くと精度が上がるのよね。 それで行くと変数名もハンガリアン記法の方が良さそうとか。
2025-01-13
Devinをやってみることによって「パーツが揃った未来にどうなるか」を知ることができたし、Devinの中身がo1やo3になる未来がありありと想像できるようになった
一方で自分は「AIのマネージャー」として生きていくのか、まだ「エンジニア」として生きていくのかどっちが楽しいのかと考えたときに、まだエンジニアの側に未練があるなとも気づいた
teramotodaiki 自分がコード書く時はボイラープレート嫌いだから極力使わないんだけど、Devinには与えた方が上手く働いてくれるのかも知れない。これアンラーニングしないといけない奴だ nishio ボイラープレートってたぶんあまりスキルの高くないエンジニアでも開発ができるようにするもので、今のAIエージェントはまさに「あまりスキルの高くないエンジニア」相当ということかも。1年後に新しいAIエージェントに「ボイラープレート嫌いだから書き直していいですか」とか言われる流れ
teramotodaiki 月500ドルじゃ全然足りないなこれ。あとチームで使うには無駄遣いしないようにする仕組みが必要そうだ。 「はい、その指示で500円使いましたー」みたいな nishio コストの可視化機能は必要だなぁ、Slackで無反応な間に無益なことに延々挑戦してたりするからな… あと、会社の金なので気にせず使う派の人と、会社の金なので自分の金より慎重になる派の人で揉めそうだなと思った。
ochyai Devinに効くやつ「新しいプルリクを出すように.ちゃんとできないと契約更新について考えてしまいます.」
ochyai Devinのキラーユースはサーベイ論文執筆だ.これめっちゃ得意だ多分.
2025-01-14
nishio Devin!実行する前に聞いてって言ったでしょ!なんでPull Reqがくるの!!
nishio Devinくん、ドキュメントを直してって言っただけなのに元気にGitHub Actionとrequirements.txtも直して、よく気がつくね、えらいね 「ドキュメントだけの変更なのでテストは不要です」 え?
Devin観察日記 14日目|Daiki Teramoto 出演したw
nishio ああー、なるほど、カートに入れて注文を押したつもりなのに並行して操作しているエージェントのせいでレースコンディションが起きて勝手に消えて「注文できてないよ」と叱られたから焦ってしまったのか... () ukkaripon オーナーのパワハラプロンプトが原因。。。 nishio やっぱオーケストレーション層のあるAIは人間だからパワハラをしてはいけないのではないか
2025-01-15
Devinの書いたタスク管理をChatGPTで自分で動かしてたら、なんとバリデーションのためのコードが二つあることが判明した、どっちを使ってるんだw (ちゃんと確認しないでマージした人間が悪い) o1 proに素晴らしく書き直してもらった()
o1 proの書いたやつは問題なく動いた上に検出してなかったミスを10件発見したぞ() ID重複してるじゃん
chokudai AIソフトウェアエンジニアとして有名になり始めてるDevin、実は競プロ勢がめっちゃ作ってるっぽいのよね。 紹介動画で見えるだけでもtourist(AtCoderRating1位)、ecnerwala(4位)、scott_wu(12位)がおり、HPを見ると世界情報オリンピックの金メダル10枚みたいに書かれている。 chokudai scott_wuさん、競プロ最上位勢として見てたけど、Wikipedia見たら起業家としての扱いがメインになっていた。へー。 競プロ勢なの知らなかった
y_matsuwitter 新入社員のDevin君、大きなタスクは任せられないけど、ちょっとしたデプロイ高速化やラベルの差し替え、細かいバグ修正などはちゃんとこなしてくれて偉い。今日もコンテナサイズ削減してくれた。任せる粒度とかにコツがあるな。 y_matsuwitter Ai Workforceチーム的には既にコスパ合う優秀な先生扱いになりつつある。大きなタスクがこなせないだけで、知識量などは優秀。 nishio この「任せる粒度のコツ」や「できる難易度」「かかりそうなコスト感」などのセンスが、基本的に我々が初めて経験することだから「実際に使って経験値を得る」ことでしか身につかないんだよなと思う。どんな教科書を買っても書いていない
skyTrilingineer 百聞は一見に如かずですよね。
takiuchi 問題はそのコツがぜんぶ、AIの世代が変わったら役に立たなそうって事なんだよな
nishio このツッコミはまったく正しいんだけど、このやりとりは「プログラミング言語って何を学んだらいいですか?言語が変わったら古い言語をそのまま使えないんですよね?学んだら将来安泰な言語を教えてください!」みたいな形で今までも繰り返されてきたやつだと感じた。永久不朽の技術などない。
ringo このツッコミが正しいかはまだわからないかなぁ。
nishio 言葉足らずだった。言葉を増やして正確に表現しようとすると「表層的な知識は互換性なく変わる、深い理解は一部有益であり続ける、深い理解のどの部分が有益であり続けるのかは事前に知り得ない、表層的な知識を飛ばして深い理解だけ得ることはできない」みたいな感じになりそう
ringo AIにドラえもんの歌を歌わせられないとか、絵本を読んでくれないとか、政治的なこと、武器、危険な装置、リバースエンジニアリング、人間の個人的な活動や思索について、安全性という観点で役に立たないトピックがかなりある。
まとめると、綺麗事ではないこと全部。
ringo 綺麗事ではないことについて一緒に考えてくれるAIをわれわれの手元の計算機で自分のために自分で作れるようになると良いと思うんだけど、まだ見通しがないと思う。
fpocket Process Automationの分野は、2000年代初頭から重要性は認識されていたけど数理科学的な手法の開発があまり進んでいない。特にタスクをいかにプロセス分解するかの数理科学的な方法論がない状況だ。圏論ベースの方法論や表現方法の開発が進むことに期待している。Pluralityとも関連している。
少なくとも数年前まで「タスクの分解」は人間がするものだと思い込まれていた。それが機械にも可能になり、なんなら状況によっては人間よりうまくやる。どのように状況を整えてやればうまくできるのかは新しい工学的研究の対象になり、圏論がいいのかどうかは実験的に検証される
nishio 昨日は「早い段階でDevinを試した人がその面白さにテンション上がって発信しすぎたせいで『高いDevinを買うだけで幸せになれる』みたいな解釈をする人が現れて、その人たちが使いこなせなくて不満を投稿し始めて幻滅期が来る」「典型的なハイプカーブ」という話をした。 nishio 「アーリーアダプターとマジョリティは価値観の軸がズレてる」っていうありきたりな話 teramotodaiki これその通りだと思います。西尾さんや僕は何万円も溶かしながら「面白かったね!」と笑っていますが、それでもたまに、ふと我に返って落ち込んでいます。後悔したくない人はまだ買わない方がいいと思います。
個人でDevinを契約すべき人は、これくらいだと思う ・自社のAI活用を身銭切ってでも進めたい人 ・8万円を回収できるインフルエンサー ・未来を学ぶための勉強代と割り切れる人 teramotodaiki 一方、「会社でDevinを契約すべきか?」という問いには100% YESと答えます。ソフトウェア開発が今後どう変わるのかを社内で考え始めるべき。大企業ほどインパクトが大きいので、僕が大企業勤めなら「Devin課長」を勝手に名乗って推進しまくると思う
西尾さんや僕は何万円も溶かしながら「面白かったね!」と笑っていますが
nishio 僕が「8万円払って一人で試す」ではなく「僕が払うからみんなで観察する会をやろう」というムーブをしたことの意味があんまり理解されてないと思ってて、これは例えるなら「8万でクルーザー借りれるらしいぞ!みんなで乗ろう!」であり実際一人では体験できなかったワイワイをしてとても楽しかった nishio 「旅行」のメタファーはいいかもな。「思い出」「経験」は残るが、何十万か消えたりする。そして一人で行くのとみんなで行くのは根本的に違う体験。
僕が大企業勤めなら「Devin課長」を勝手に名乗って推進しまくると思う
nishio 企業にDevinを導入することのメリットは大きいとは思うが、導入推進の旗振り役は個人的にはやりたくないなぁ、説得・交渉・予算獲得・期待値の調整・使おうとしない人をencourageし、abuseして問題が起きないように気を回す... 得意でないしやりたくないタイプの仕事に見えるw
session usage limitで止まってるタスクのlimitを増やそうかと思ったけど、そもそもそんな状態になるのは適切な使い方じゃないよ、と警告が出るようになってた
割と我々おかしな使い方をしまくりなので「そんな使い方をしてうまく動かないとかいうなよ」と怒ってくるように進化したww
まあこれ、企業内に導入するなら必要な機能の一つだと思う。250ACUあってもどんなタスクがどれくらい掛かるか肌感が掴める前に一発100ACUのタスクを投げてしまうとすぐなくなるから。
「期待したタスクの1/10も終わらずにリミットに達した」というフィードバックが自動的に発生するのはいいことだな。
AIアシスタントに何を頼んだらいいかの肌感がない人が何かを頼もうとするとき『たくさんあるタスク』を頼みがち。
2025-01-19 特にタスク管理に関してインターフェースがSlackであることには「思いついたことを即座に書いて頭から追い出せる」というメリットがある
Devinに任せっきりにしてたら似たようなことをするコードがいくつも生まれていたw
o1 Proにドキュメントをまとめて渡して疑問点がないかとか議論したら色々出てきた
Devinによって作られたたくさんの「使ってないスクリプト」と「使ってないスクリプトを使うと説明しているドキュメント」を捨てていくことが必要な気がしてきた
2025-01-20 Devinインシデント
今日のタスク管理実験は、ChatGPTの勝ち、Devinは、やたら時間をかけた上で、セキュリティインシデントを引き起こすと言うミス
やはり目下のところ、AIは、パブリックな場に書き込める形にするのではなく プライベートなorganizationの中に閉じ込めておいた方が良いのかもしれない
そうなると、オープンソースプロジェクトに直接コミットするのはめんどくさくなってしまうんだよなぁ
(Tachibana)最初字面だけ見て自分と逆だなぁと思ったけど、を見て理解
(Teramoto)社内向けにもルール整備してるんですけど、Publicリポジトリは一律禁止にしようと思ってます。でもPublicリポジトリにヤバいこと書かれるリスクって非直感的ですよねぇ。事例を聞くと納得できるんだけど、やらかす企業増えそう
もともとLLMに否定系の指示が通りにくいことも相まって「情報をpublicに漏らすな」という指示は難しいんですよね。
元々Devinをシェアするつもりで使ってるから深刻に秘密なことはまだ入れてないし、なるべく多くの人に観察機会がある方がいいと思って公開のrepoにしてるんだけども、今後活用していこうとするとprivateにするのが素直だと思うんだよな…
“パブリックなプロジェクトこそ機密情報がなくてAIのサンドボックス向き”
(Teramoto)いやー難しいですね。西尾さんのタスク管理の件で、漏れるのがソースコードやsecretとは限らない、という学びが得られたので、「Devinが目にするもは全て漏れる」という前提をおく必要が出てきた()
漏れるのがソースコードやsecretとは限らない、という学び
2025-01-21
Devinを見る会のクロージングに向けて 今後1週間くらいでやること
Devinの新しい観察機会は無くなっちゃうけど、30人くらいの人に1ヶ月間機会を提供しただけで十分な社会貢献だと思うことにする
余談だけど昨日の事故の理由は実は少しわかってて、僕が「Devinだけでやる」形から「ChatGPTやRoo-Clineでも実験をする」って過程でデータの置き方とかを少し変えたりしてたので、それで混乱したのだと思う。 まあ混乱したからといってpublic repoにprivate repoからcloneした内容をPRされたら困るんだけどね… テストデータを読んだりして混乱してた段階で続行しないで仕組みの側を直すのが良かったのかもしれない
2025-01-22 書くのではなく、AIが書いたものを削り落とす形での創作
AIタスク管理者、ChatGPTでjsonpatch形式で出力させてapplyするのができたのでDevinが直接ファイルを書き換える必要性がどんどんなくなっている… プロトタイプを作る上では助かったよDevin…
OpenAIのAPIを叩いて処理する系のコードをDevinに任せるとプロンプトの試行錯誤もしてくれるのかw
「透明性のためにpublicチャンネルでやるべき」とか僕の「Devinがどんな振る舞いをするのかなるべく多くの人に共有したい」とかの思想が、現時点でのAIの賢さと釣り合ってないんだよな。 どっちかというと「幼稚園児にpublicなSNSアカウントを与えてはいけない」みたいな感じ
ここまでのDevin観察日記のまとめ。なぜDevinは「破壊的」なのか?|Daiki Teramoto
CursorやRoo Cline...それらは「ユーザーを拘束している」という点で、あくまでツールに過ぎません。 Devinの特性を理解した上で、チームとして全体最適を考える必要があります。 結局のところ、仕事をさせる=裁量を与えること
nishio AIに睡眠時間の決定を委ねたら7時に起きろと言われた
nishio 文句を言ったら2時間伸ばしてもらえた nishio うちのDevinくん「人間には十分な睡眠時間が必要なのか〜、メモしとこ」
2025-01-24
2025-01-25 Devinを見る会closing
2025-01-28 AIエージェントのwriteのスコープ
2025-01-31 Devinにコードリーディングさせる Devinで4万溶かす方法
ここもだいぶ長くなってるのでDevin.aiを試す2/1~に続きを書くことにした