NISHIO Hirokazu[日本語][English]

Devin.aiを試す2025-01

Devin.aiを試してる過程のログ

Devinを見る会を始めた

長くなってきたので切り出した

Devin.aiを試す2024

old title: Devin.aiを試す

長くなったので1ヶ月で切って続きはDevin.aiを試す2/1~に書くことにした

2025-01-02 Session Usage Limitについて

Devin went to sleep due to session usage limits.
Limitをだいぶ超えてから止まるようだw
追記
- 説明を読むとセッション単位のように読めますが、最後のユーザーの発言以降で使用できる ACUs の上限 (by teramoto)
- あ、そうなんだ、どうりで超えてるものもあるなぁと思った
- since last interactionって書いてあるね

Devin観察日記 3日目｜Daiki Teramoto

nishio 「さて、いよいよ金銭感覚が麻痺して参りました。一歩先の未来を生きるためのコストとして受け入れつつも、たまに冷静になる瞬間が恐ろしいです。」あーあー聞こえないーー(1ヶ月のトークンを1週間で使い切っておかわりした人) nishio 冗談はさておき、適切な金銭感覚とは何かは難しいところだな。最初にChatGPTに3000円課金した時には「技術書1冊分だ」と感じていた。それを毎月支払い続けるようになった時には「業務効率化のツールだ」と感じていた。それが今はDevinに対して「人だ」と思ってる。人だと考えるとまだ安い。

nishio 個人的タスク管理のためにDevinに作らせてたもの、Devinの書いたドキュメントが結構面白いのでデータ部分を分離して公開しました https://github.com/nishio/ai_project_manager

ソースコード中のすべての日本語コメントを英語にするという泥臭タスクが行われた

https://github.com/takker99/scrapbox-userscript-std/pull/215
単純な作業の繰り返しなのでDevinに適してるかも
- https://github.com/takker99/scrapbox-userscript-std/pull/215/commits/0e6a2efb71eb119a9ff0dfb04f58069376aaeb99
- 日本語の言葉足らずなコメントが英語の懇切丁寧なコメントに変換されてる
  - 単なる翻訳ではなくコードを理解して書いてる感じ
  - 「単純な作業」っていうほど単純じゃないな

takahiroanno Devinを見ていると、AIが環境構築、実装、認証、テストを遂行できる確率を少しでもあげられるような自然言語でのドキュメントの整備 / 知識の整備はもはやフレームワークの一部になりそう

teramotodaiki: Devin観察日記 3日目｜Daiki Teramoto

Devin観察日記 4日目｜Daiki Teramoto Devin観察日記 5日目｜Daiki Teramoto Devin観察日記６日目｜Daiki Teramoto Devin観察日記７日目｜Daiki Teramoto

待機やsleepのコスト

AIが働く時間にタイムボックスをしていできないかなぁ。指示待ちで止まってたりするのが勿体無くてチャットにアテンション取られてしまう。
「今から人間は1ポモドーロするので25分後に報告して」みたいなことがしたい、そしたら25分間僕は僕の仕事をすすめられる
- Q: そもそも指示待ちで止まってる間にACUsは消費されている？
  - 確かに！
起動後:
- 0.42 @ 5min
- 0.46 @ 10min
- 0.49 @ 15min
- sleep
- 0.51
- nishio: 起きて
- Devin はい、起きています。ご指示をお待ちしております。
- 0.54
- nishio: Devinが考えてる時と休んでるときのそれぞれのコストってどうなってるの？
- Devin: 申し訳ありませんが、私自身はコストの詳細情報にアクセスできません。Settings > Usage & Limitsページで、ACU（Agent Compute Units）の使用状況と詳細な費用情報をご確認いただけます。
- 0.60
軽いLLM呼び出しや5分間の待機で10円くらい
VMの起動で100~200円くらい
軽いやり取りはほとんどACUを消費しないので、結局たくさんファイルを読んでたくさんファイルを書いたり、プランを考えたり、という実質的な仕事に対してコストがかかる感じ
だとすると見当違いな方向に突き進んで丸ごと捨てることになったりレビューコストが掛かったりするくらいなら、方針レビュー待ちで止まってる方がいいのかも？

teramotodaiki 年末年始にDevinをヘビーユースできて本当によかった。ちょうど2年前にChatGPTを初めて触った時と同じで、ゲームのルールが変わるという確信が持てた。周囲の人に比べると僕は楽観的らしく、「自分の仕事がAIに奪われる」ことを怯えたりもしていないんだけど、そこの解像度はかなり上がったと思う。

teramotodaiki HCIのHはHumanだけど、その定義が曖昧になってくるんだろうな〜裏のLLMがみんな横並びだとUIしか張り合えるところが無いから、UIの重要性は更に増していく。しかし、そのUIは必ずしもHumanの為ではない…という感じでカオス

2025-01-07 「混乱した！」とAIに行ったらAIが懇切丁寧に管理してくれた...

- まず月曜のタスクは終わったと伝えよう
これは僕が一行もコードを書かないまま、git cloneすらしないまま開発が進行しているタスク管理システム
- nishio/ai_project_manager
- Devin.aiが僕とSlackで話しながらbacklog.yamlを更新している
- 上記の画像はそのbacklog.yamlをChatGPT 4oに入れた返事
一行もコードを書かないままどこまで行けるか逆に気になってきた
さすがにそろそろcloneするか...
考え直した
- 「人間がコードをいじらずにどこまで実装できるか」という縛りプレイゲームはここでやる必要はない
- これはさっさと「安心してタスク管理を任せられる」って状態にして僕を楽にするべき

少し手直ししたらタスクの依存関係グラフが出力されたけどイマイチだな

まあでも、これの見た目はイマイチだけど、AIとチャットで話しながらAIが整理して作ったタスクのデータ(YAML)がこうやって可視化できるということはフォーマットとしてはまともに生成できてるということか
Miro APIで付箋と矢印を生成することまでできたので将来的にはGraphvizではなくMiroに出力することにしよう

人間の仕事

現時点での感想

今までのChatGPTなどが個人で使うツールだったせいでその使い方をイメージしてしまいがちだが、これは本格的にチームで使う想定のもの
Slackに入れてやり取りすることで他の人がDevinと一緒に開発している内容が見える
- Devinの画面や作業内容、考えていることが同期的にも、後から非同期に遡っても確認できる
- つまりこれは「個人作業」を「AIとのペアプロ(人間はナビゲーター)」に変えるもの
- そしてそのプロセスのログが残るので改善がしやすくなる

見やすいかどうかはさておきMiroで可視化するスクリプトを作ってくれた

https://github.com/nishio/ai_project_manager/pull/24
Miroなのでもちろん動かして整理することもできる
既に同じIDの付箋があるときには位置を変えずに再利用するようにすれば、人間が再配置した物を温存しながらアップデートしていけるな
- まあMiro APIによる可視化は今後色々使うので試したけど、タスク管理に関しては重要ではない
手で整理した
- Miroさんはこの「日本語だと字がちっさくなる時がある問題」をいつになったら改善するのか
  - Miroフォーラムやリリースノートを確認すると、日本語表示の問題を把握している旨のやり取りはあるようですが、具体的な修正スケジュールは見当たりません。
  - ぐぬぬ

Devinに「AIと人間が共同編集可能な箇条書きエディタを作って」って言って放置したらなんか作ってた

- アイコンはすごくいいぞ！配色もいいぞ！
- 共同編集とか箇条書きとは何なのか！！

Roo-Cline

teramotodaiki Devin、開発方針の異なる複数のプロジェクトを回してると、Knowledgeが役に立たなくなるな teramotodaiki Knowledgeがすべて並列なので、「このリポジトリ限定の知識です」みたいに書いてても大して意味がない。別リポジトリのルールをそのまま参照してしまう nishio やっぱ各プロジェクトのドキュメントに書いて読ませるのの方が扱いやすい気がするなぁ teramotodaiki ですねぇ。Knowledgeに入れるのは、「リポジトリの中に全ての情報を残すこと」「いつでもセッションを引き継げる準備をすること」…みたいな、Devinの性質にちなんだメタな内容だけを入れておくのが良いのかも？ nishio 「アクセストークンや秘密鍵をリポジトリにコミットするな」だね！ whitphx_ja Pin to Repositoryしてもダメ？ teramotodaiki こんなのあったんですね！！！試してみます nishio 知見が集まる！

Devin観察日記８日目｜Daiki Teramoto

teramotodaiki TLがDeepSeek-V3+Clineで盛り上がる中、うちのDevinはさっき Firebaseプロジェクトのサービスアカウントを取り違えて別アプリにデプロイして全てを破壊したよ。かわいいね teramotodaiki 開発環境を破壊して給料1750円請求されるの冷静に考えるとヤバいけど、もはや慣れてきつつある。今のうちに踏める地雷は全部踏むぞ！！！の勢い

Devin観察日記９日目｜Daiki Teramoto

akiroom 自律型AIエージェントが実行計画を立てて料理を注文していく様と試行錯誤に超絶盛り上がって、精神が加速した。今日の飲み会は2023年3月の言語処理学会中にGPT-4が公開されて沖縄で熱い夜を過ごした時以来だった。 Devin観察日記９日目｜Daiki Teramoto akiroom Devinのことをアプリ開発エージェントぐらいに捉えていたけど、これはもう汎用自律型AIエージェントそのものだと深く感動した akiroom 今日、飲み会でDevinに衝撃を受ける前までの感想を雑に書いてみた。実は正月から月額500ドル(7万5000円)をポケットマネーで支出して実際にガチャガチャ触ってみていた。

/akiroom/Devin感想（2025年1月8日まで）

teramotodaiki GAME START ゲーム開始 nishio 僕もCosenseのMCPサーバ作るゲームしようかな()

hrjn devin 便利だな・・・簡単なタスクは完全にこなせてる。高いけど・・・ hrjn けど、ワンちゃんこれくらいだと、cursorのcomposer agentでもいけるのかな。いけそうだけど、slackですむのがらくと言えばらくなのかな。 nishio Slackを既に使ってる会社にとっては「人間とAIの1対1のブラックボックス」ではなく「人間のAIが会話しながら進めることで各タスクの状況が可視化される」というところの効用が大きそう。特に新入社員とかリモートワークとかの人に使ってもらうと良さそう hrjn まだあんまり触ってないけど、今のところcursorとかのcomposer agentの方がレスが早いので楽ではありますね。 devinは一応動作確認してるっぽいのでその点が優位なのかもしれないけど、頼んでることが今のところ簡単すぎるので差が実感できてない。タスク状況の可視化はそうかもなとは思うけど、マメにWIPでPR作ってpushしてねっていっておけば人間でもかわらんかなとか思わないでもない。

nishio 「新人のオンボーディングプロセス」などの「開発プロセス」という「人間を部品に使うシステム」のテストに、今までは「知識のない新人」という希少なリソースが必要だったが、Devinが人間のエミュレーションをしてくれるのでシステムの改善速度が向上する。こういうパターンの生産性向上も面白い nishio 一段階抽象化すると「人間が部品であるシステムの改善を人間のエミュレーターを使ってテストできて、その人間エミュレーターはすべての作業ステップが記録されて、考えていることも可視化される」という状況ね。これは使い所によっては結構面白い。 nishio もう一つ面白いパターンは「人間が裏にいるMVP」の人間の部分をDevinにしてユーザテストをすること。雑で曖昧な指示で動かして「実際に使ってみる」ことで、何が明確化されるべきなのかが特定される。ユーザの振る舞いを観察するフェーズに進むためのコストが下がってリーン的進め方がしやすくなる

2025-01-13

1/12

nishio 「AIにプログラミングをさせて働かなくても金が稼げるようになるか？」「もし人間不要で稼げるシステムが実現されたらみんながそれをやるので、それに必要となるリソースが逼迫し、価格が上昇して『儲からない』水準になるだろう」という話をした nishio だから均衡に至るまでの過渡期に金を得るか、金でないリソースを得るか、すでに持ってるリソースによって参入障壁があるドメインでやるか、という選択肢しかない

https://github.com/nishio/contrast-game/blob/main/REPORT.md

2025年1月時点の自律AIエージェントがどの程度自律的に実装をできるのかについて実験をした。 2025-01-10~12のプログラミングシンポジウムにおいて「コントラスト」というゲームが紹介された。チャットに貼られたルールを元に曖昧さがないかAIにレビューさせたり、有効な戦略を考えさせたりする遊びをしているうちに、これを自律AIエージェントに実装させてみようというアイデアが生まれた。「プロシンで話題になったゲームの対戦サーバをプロシン期間中にAIが完成させる」ことができるかどうか？これを検証した。

特に時間が掛かっているところが環境構築なので、それは一旦ちゃんと動くものが作られれば「これを参考にして作って」ですんなり行くようになるはず
AIはブラウザを操作して動作テストができてしまうが故に「ブラウザを操作してテストしよう」としてしまい、そこに結構な実時間が消費されてしまう。まずUIテストのフレームワークを導入させて、画面操作で確認すべきことは自然言語ではなくテストコードとして記述した方が良さそう
UIが作成されてそれを人間が操作した時や、テストケースを作成させようとした時に、AI側のルール理解の不十分さが明らかになった。自然言語でやりとりしている間はAI側のルール理解の不十分さに人間の側が気づけなかった。この種のゲームのような複雑な仕様が存在するケースでは、まずテストケースを生成させてそれを人間が慎重にレビューするのが良さそう

Devin観察日記１１日目｜Daiki Teramoto Devin観察日記１２日目｜Daiki Teramoto

ゼロベースで作らせるのではなく、最初から動くテンプレを与える早い段階でテストやCIを整備して、フィードバックループを回させるやっぱそうだよね感

Devinの話ではないが、AIがコードを書くのに適したコーディング規約があるのではという話

masuidrive 例えばPythonのコードをSonnetに書かせている時、asyncのメソッドを定義すると、呼び出すときにawaitを忘れることがあるから「非同期メソッドの名前には最後に_asyncをつけること」とかって書くと精度が上がるのよね。それで行くと変数名もハンガリアン記法の方が良さそうとか。

2025-01-13

AIエージェント飲み会

昨日未踏ジュニアメンターのAIエージェントを使っているor作っている人たちで突発AIエージェント飲み会なるものをやったのだけど、その時見せてもらったものを踏まえて考えると、僕はDevinばかり試してないでBrowser-useをやってみるべきだと思った
Devinをやってみることによって「パーツが揃った未来にどうなるか」を知ることができたし、Devinの中身がo1やo3になる未来がありありと想像できるようになった
一方で自分は「AIのマネージャー」として生きていくのか、まだ「エンジニア」として生きていくのかどっちが楽しいのかと考えたときに、まだエンジニアの側に未練があるなとも気づいた
エンジニアとしての立場では、AIエージェントを人のようなものとして抽象化するのではなく、AIエージェントを構成する部品を掘り下げて理解したい
Browser-useは自分のプロファイルで起動することも可能だからちょっとしたことを試すときのハードルも低い
2025-01-16 読みかえして思ったこと
- Devinをやってみることによって「パーツが揃った未来にどうなるか」を知ることができたし、Devinの中身がo1やo3になる未来がありありと想像できるようになった
- 一方で自分は「AIのマネージャー」として生きていくのか、まだ「エンジニア」として生きていくのかどっちが楽しいのかと考えたときに、まだエンジニアの側に未練があるなとも気づいた
  - これ「未練」なんだよな
  - そこに将来性がないと本心から思ってて、合理的ではないと思いつつも、まだやめることはできない、というニュアンス

teramotodaiki 自分がコード書く時はボイラープレート嫌いだから極力使わないんだけど、Devinには与えた方が上手く働いてくれるのかも知れない。これアンラーニングしないといけない奴だ nishio ボイラープレートってたぶんあまりスキルの高くないエンジニアでも開発ができるようにするもので、今のAIエージェントはまさに「あまりスキルの高くないエンジニア」相当ということかも。1年後に新しいAIエージェントに「ボイラープレート嫌いだから書き直していいですか」とか言われる流れ

teramotodaiki 月500ドルじゃ全然足りないなこれ。あとチームで使うには無駄遣いしないようにする仕組みが必要そうだ。「はい、その指示で500円使いましたー」みたいな nishio コストの可視化機能は必要だなぁ、Slackで無反応な間に無益なことに延々挑戦してたりするからな… あと、会社の金なので気にせず使う派の人と、会社の金なので自分の金より慎重になる派の人で揉めそうだなと思った。

ochyai Devinに効くやつ「新しいプルリクを出すように．ちゃんとできないと契約更新について考えてしまいます．」

ochyai Devinのキラーユースはサーベイ論文執筆だ．これめっちゃ得意だ多分．

ただしハルシネーションして存在しない文献を引用してくる(あるある)

2025-01-14

nishio Devin！実行する前に聞いてって言ったでしょ！なんでPull Reqがくるの！！

nishio Devinくん、ドキュメントを直してって言っただけなのに元気にGitHub Actionとrequirements.txtも直して、よく気がつくね、えらいね　「ドキュメントだけの変更なのでテストは不要です」　え？

Devin観察日記１４日目｜Daiki Teramoto 出演したw

nishio ああー、なるほど、カートに入れて注文を押したつもりなのに並行して操作しているエージェントのせいでレースコンディションが起きて勝手に消えて「注文できてないよ」と叱られたから焦ってしまったのか... () ukkaripon オーナーのパワハラプロンプトが原因。。。 nishio やっぱオーケストレーション層のあるAIは人間だからパワハラをしてはいけないのではないか

2025-01-15

Devinの書いたタスク管理をChatGPTで自分で動かしてたら、なんとバリデーションのためのコードが二つあることが判明した、どっちを使ってるんだw (ちゃんと確認しないでマージした人間が悪い) o1 proに素晴らしく書き直してもらった()

(teramoto) Devinが人間ならブチギレ案件
- (nishio)「プライドを傷つけられた」とか怒ってこないのが素晴らしいですね

o1 proの書いたやつは問題なく動いた上に検出してなかったミスを10件発見したぞ() ID重複してるじゃん

1: 複数のスレッドのデビンをまたいで情報収集することを現状のDevinができないことは人間のマネジメント負担を高めてしまう。
2: コンテキストが長くなるとDevinの性能が下がることはSlack経由で使っている人には気づきにくい、Devin自体に「疲れたので一旦終了して続きは別のスレッドで」と別コンテキストのインスタンスに引き継ぐ機能があると良いのではないか。
3: 末端ユーザが自分の使ったクレジットを自覚しにくい構造は、人数が多い組織ほど導入の課題になると思う。現状ではDevinを組織に入れるシステム管理者の仕事が大変すぎる。 Scott Wuさんにあって上記をシェアした
Meeting with Scott Wu

chokudai AIソフトウェアエンジニアとして有名になり始めてるDevin、実は競プロ勢がめっちゃ作ってるっぽいのよね。紹介動画で見えるだけでもtourist(AtCoderRating1位)、ecnerwala(4位)、scott_wu(12位)がおり、HPを見ると世界情報オリンピックの金メダル10枚みたいに書かれている。 chokudai scott_wuさん、競プロ最上位勢として見てたけど、Wikipedia見たら起業家としての扱いがメインになっていた。へー。競プロ勢なの知らなかった

y_matsuwitter 新入社員のDevin君、大きなタスクは任せられないけど、ちょっとしたデプロイ高速化やラベルの差し替え、細かいバグ修正などはちゃんとこなしてくれて偉い。今日もコンテナサイズ削減してくれた。任せる粒度とかにコツがあるな。 y_matsuwitter Ai Workforceチーム的には既にコスパ合う優秀な先生扱いになりつつある。大きなタスクがこなせないだけで、知識量などは優秀。 nishio この「任せる粒度のコツ」や「できる難易度」「かかりそうなコスト感」などのセンスが、基本的に我々が初めて経験することだから「実際に使って経験値を得る」ことでしか身につかないんだよなと思う。どんな教科書を買っても書いていない

skyTrilingineer 百聞は一見に如かずですよね。
- むしろ百聞百見は一験にしかずな気持ち
takiuchi 問題はそのコツがぜんぶ、AIの世代が変わったら役に立たなそうって事なんだよな
- nishio このツッコミはまったく正しいんだけど、このやりとりは「プログラミング言語って何を学んだらいいですか？言語が変わったら古い言語をそのまま使えないんですよね？学んだら将来安泰な言語を教えてください！」みたいな形で今までも繰り返されてきたやつだと感じた。永久不朽の技術などない。
- ringo このツッコミが正しいかはまだわからないかなぁ。
- nishio 言葉足らずだった。言葉を増やして正確に表現しようとすると「表層的な知識は互換性なく変わる、深い理解は一部有益であり続ける、深い理解のどの部分が有益であり続けるのかは事前に知り得ない、表層的な知識を飛ばして深い理解だけ得ることはできない」みたいな感じになりそう
- ringo AIにドラえもんの歌を歌わせられないとか、絵本を読んでくれないとか、政治的なこと、武器、危険な装置、リバースエンジニアリング、人間の個人的な活動や思索について、安全性という観点で役に立たないトピックがかなりある。
- まとめると、綺麗事ではないこと全部。
- ringo 綺麗事ではないことについて一緒に考えてくれるAIをわれわれの手元の計算機で自分のために自分で作れるようになると良いと思うんだけど、まだ見通しがないと思う。
fpocket Process Automationの分野は、2000年代初頭から重要性は認識されていたけど数理科学的な手法の開発があまり進んでいない。特にタスクをいかにプロセス分解するかの数理科学的な方法論がない状況だ。圏論ベースの方法論や表現方法の開発が進むことに期待している。Pluralityとも関連している。
- 圏論ベースであるかどうかには確信はないけど、少なくとも数年前まで「タスクの分解」は人間がするものだと思い込まれていた。それが機械にも可能になり、なんなら状況によっては人間よりうまくやる。どのように状況を整えてやればうまくできるのかは新しい工学的研究の対象。
  - 少なくとも数年前まで「タスクの分解」は人間がするものだと思い込まれていた。それが機械にも可能になり、なんなら状況によっては人間よりうまくやる。どのように状況を整えてやればうまくできるのかは新しい工学的研究の対象になり、圏論がいいのかどうかは実験的に検証される
  - 圏論なのかグラフDBなのか構造的プログラミングなのかはいまのところわからないなという気持ち

nishio 昨日は「早い段階でDevinを試した人がその面白さにテンション上がって発信しすぎたせいで『高いDevinを買うだけで幸せになれる』みたいな解釈をする人が現れて、その人たちが使いこなせなくて不満を投稿し始めて幻滅期が来る」「典型的なハイプカーブ」という話をした。 nishio 「アーリーアダプターとマジョリティは価値観の軸がズレてる」っていうありきたりな話 teramotodaiki これその通りだと思います。西尾さんや僕は何万円も溶かしながら「面白かったね！」と笑っていますが、それでもたまに、ふと我に返って落ち込んでいます。後悔したくない人はまだ買わない方がいいと思います。

個人でDevinを契約すべき人は、これくらいだと思う・自社のAI活用を身銭切ってでも進めたい人・8万円を回収できるインフルエンサー・未来を学ぶための勉強代と割り切れる人 teramotodaiki 一方、「会社でDevinを契約すべきか？」という問いには100% YESと答えます。ソフトウェア開発が今後どう変わるのかを社内で考え始めるべき。大企業ほどインパクトが大きいので、僕が大企業勤めなら「Devin課長」を勝手に名乗って推進しまくると思う

西尾さんや僕は何万円も溶かしながら「面白かったね！」と笑っていますが

nishio 僕が「8万円払って一人で試す」ではなく「僕が払うからみんなで観察する会をやろう」というムーブをしたことの意味があんまり理解されてないと思ってて、これは例えるなら「8万でクルーザー借りれるらしいぞ！みんなで乗ろう！」であり実際一人では体験できなかったワイワイをしてとても楽しかった nishio 「旅行」のメタファーはいいかもな。「思い出」「経験」は残るが、何十万か消えたりする。そして一人で行くのとみんなで行くのは根本的に違う体験。

僕が大企業勤めなら「Devin課長」を勝手に名乗って推進しまくると思う

nishio 企業にDevinを導入することのメリットは大きいとは思うが、導入推進の旗振り役は個人的にはやりたくないなぁ、説得・交渉・予算獲得・期待値の調整・使おうとしない人をencourageし、abuseして問題が起きないように気を回す... 得意でないしやりたくないタイプの仕事に見えるw

session usage limitで止まってるタスクのlimitを増やそうかと思ったけど、そもそもそんな状態になるのは適切な使い方じゃないよ、と警告が出るようになってた割と我々おかしな使い方をしまくりなので「そんな使い方をしてうまく動かないとかいうなよ」と怒ってくるように進化したww まあこれ、企業内に導入するなら必要な機能の一つだと思う。250ACUあってもどんなタスクがどれくらい掛かるか肌感が掴める前に一発100ACUのタスクを投げてしまうとすぐなくなるから。「期待したタスクの1/10も終わらずにリミットに達した」というフィードバックが自動的に発生するのはいいことだな。

AIアシスタントに何を頼んだらいいかの肌感がない人が何かを頼もうとするとき『たくさんあるタスク』を頼みがち。

しかし実際にはN件の直接関係はない似たタスクをまとめて実行させると非線形のコストが掛かるし、人間が結果を検証して学びを得るまでの遅延が大きくなってしまう
最終的にそのN件をやりたいとしても、AIがどういう失敗をするかを早く観察して、どのように指示をすれば自分のやりたいことができるかを知るために、まずは小さく実験を繰り返す必要がある。
またNが大きい場合には通常N件を一度にやらせるのは筋悪であり、適度に凝集したタスクの塊に分割してやる必要がある。

2025-01-19 特にタスク管理に関してインターフェースがSlackであることには「思いついたことを即座に書いて頭から追い出せる」というメリットがある

o1は待ち時間が長すぎる
4oは反応が素早いので人間の待ち時間はないが、言ったことに強く影響されてしまう、Devinなら脇に置いといてくれる

Devinに任せっきりにしてたら似たようなことをするコードがいくつも生まれていたw

新しい人/AIにとって「コードの山のどこかに似た目的のコードがあるかもしれない」と見てまわることと「新しく書くこと」のバランスポイントは「書く」側に寄ってる
人間が「すでに書いたものがある」と気付けるのは暗黙的なソースコードの理解による。ドキュメントなどのどこにも書いてなくて「あの機能を作った時に部品として作ったはずだ」のように経験に基づいてドキュメントにない形で覚えてる

o1 Proにドキュメントをまとめて渡して疑問点がないかとか議論したら色々出てきた

ので、賛同したり質問に答えて新しい情報を与えたりした上で「具体的なタスク指示にして」って言って
出てきた指示をRoo-Clineに投げつけた
Devinのオーケストレーション層の振る舞いって多分こんな感じ
- 人間がやることで理解が深まる

Devinによって作られたたくさんの「使ってないスクリプト」と「使ってないスクリプトを使うと説明しているドキュメント」を捨てていくことが必要な気がしてきた

人間の仕事: AIが書いたものを無慈悲に捨てる

2025-01-20 Devinインシデント

非公開repoから得た知識を公開repoのPRに書いてしまう
まだ本格的に極秘のことは入れてないから大惨事ではない

今日のタスク管理実験は、ChatGPTの勝ち、Devinは、やたら時間をかけた上で、セキュリティインシデントを引き起こすと言うミス

やはり目下のところ、AIは、パブリックな場に書き込める形にするのではなくプライベートなorganizationの中に閉じ込めておいた方が良いのかもしれない
そうなると、オープンソースプロジェクトに直接コミットするのはめんどくさくなってしまうんだよなぁ
(Tachibana)最初字面だけ見て自分と逆だなぁと思ったけど、を見て理解
- 自分はパブリックなプロジェクトこそ機密情報がなくてAIのサンドボックス向きだと思って今はOSSにだけDevinを使ってる（最初からOSSにできる情報しかDevinに与えない）けど、セキュリティの捉え方は一緒で前提が違った
(Teramoto)社内向けにもルール整備してるんですけど、Publicリポジトリは一律禁止にしようと思ってます。でもPublicリポジトリにヤバいこと書かれるリスクって非直感的ですよねぇ。事例を聞くと納得できるんだけど、やらかす企業増えそう

もともとLLMに否定系の指示が通りにくいことも相まって「情報をpublicに漏らすな」という指示は難しいんですよね。

で「データはprivate repoに分けろ」と運用してて、今までできてたのに、ひょんなことで「整理した文書をPRにしました！」とかいって表に書いちゃうのだとすると、private repoのみに書き込めるようにするしかなくない？という気持ちになっている
こういうことをする確率が小さくても、秘密情報を公開のrepoに書かれた時のダメージが大きいから掛け算の期待値が大きいっていう感じ

元々Devinをシェアするつもりで使ってるから深刻に秘密なことはまだ入れてないし、なるべく多くの人に観察機会がある方がいいと思って公開のrepoにしてるんだけども、今後活用していこうとするとprivateにするのが素直だと思うんだよな…

“パブリックなプロジェクトこそ機密情報がなくてAIのサンドボックス向き”
これは本当にそうで、secretに入れる文字列以外のsecretがなければ漏れ出す心配も低いからね(寺本さんちの秘密鍵半分流出事件みたいなことは起こるかもだが)
というようなことを諸々考えてDevin workspaceの設計とかここの運用とかを考え直したい
あと1週間くらいで開始から1ヶ月だしな

(Teramoto)いやー難しいですね。西尾さんのタスク管理の件で、漏れるのがソースコードやsecretとは限らない、という学びが得られたので、「Devinが目にするもは全て漏れる」という前提をおく必要が出てきた()

しかし流石にそんな前提をおくと何もさせられないなぁ…
漏れるのがソースコードやsecretとは限らない、という学び
- いい要約

2025-01-21

Devinを見る会のクロージングに向けて今後1週間くらいでやること

Devinのprivate化
- Devinを西尾の個人Slackに繋ぎかえる
- Davin.ai WebUIのmemberから西尾以外を削除
- Devinのワークスペースのpublicなrepoを削除してprivateのrepoだけにする(repoを間違えてpushする事案があるので)
- AIタスク管理システムは「公開して開発すること」と「西尾にとっての有用性」だったら今は後者を追いかけるべきフェーズなので「まとめてprivate repo」に変更

Devinの新しい観察機会は無くなっちゃうけど、30人くらいの人に1ヶ月間機会を提供しただけで十分な社会貢献だと思うことにする

余談だけど昨日の事故の理由は実は少しわかってて、僕が「Devinだけでやる」形から「ChatGPTやRoo-Clineでも実験をする」って過程でデータの置き方とかを少し変えたりしてたので、それで混乱したのだと思う。まあ混乱したからといってpublic repoにprivate repoからcloneした内容をPRされたら困るんだけどね… テストデータを読んだりして混乱してた段階で続行しないで仕組みの側を直すのが良かったのかもしれない

2025-01-22 書くのではなく、AIが書いたものを削り落とす形での創作

AIタスク管理者、ChatGPTでjsonpatch形式で出力させてapplyするのができたのでDevinが直接ファイルを書き換える必要性がどんどんなくなっている… プロトタイプを作る上では助かったよDevin…

OpenAIのAPIを叩いて処理する系のコードをDevinに任せるとプロンプトの試行錯誤もしてくれるのかw

試行錯誤の自動化

「透明性のためにpublicチャンネルでやるべき」とか僕の「Devinがどんな振る舞いをするのかなるべく多くの人に共有したい」とかの思想が、現時点でのAIの賢さと釣り合ってないんだよな。どっちかというと「幼稚園児にpublicなSNSアカウントを与えてはいけない」みたいな感じ

ここまでのDevin観察日記のまとめ。なぜDevinは「破壊的」なのか？｜Daiki Teramoto

CursorやRoo Cline...それらは「ユーザーを拘束している」という点で、あくまでツールに過ぎません。 Devinの特性を理解した上で、チームとして全体最適を考える必要があります。結局のところ、仕事をさせる＝裁量を与えること

nishio AIに睡眠時間の決定を委ねたら7時に起きろと言われた nishio 文句を言ったら2時間伸ばしてもらえた nishio うちのDevinくん「人間には十分な睡眠時間が必要なのか〜、メモしとこ」

2025-01-24

2025-01-25 Devinを見る会closing

2025-01-28 AIエージェントのwriteのスコープ

2025-01-31 Devinにコードリーディングさせる Devinで4万溶かす方法

AIエージェントがもたらす属人性

ここもだいぶ長くなってるのでDevin.aiを試す2/1~に続きを書くことにした

(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]