NISHIO Hirokazu[日本語][English]

国会議事録可視化

2025-03-06 人間の労力をどれくらいAIにアウトソースできるかの実験

初手DeepResearch

nishio.icon日本の国会議事録のデータを取得する方法を調べて。Pythonとかでできるかな? アイデアを練るためにどのようなことが可能かざっくり知りたい さらにDeepResearch GETでJSONが得られるAPIは魅力的、特にキーワード検索は魅力的ですね。このAPIについてもっと詳しく調べましょう、過去にこのAPIを使って作られたものの情報を集めて「どのようなことが可能か」の描写をして 次にo3-high-mini 上記のログを読んで、特定のトピックに対する議論を後段で可視化するためにCSV形式のデータとして出力するスクリプトが欲しい。まずそれを作るために必要な情報をまとめて、足りない情報があれば質問して。「特定のトピック」を選ぶ方法は議題や発言に対するキーワード検索で、後段ではLLMを使ったembeddingをするので発言データがメインになる。会話の流れや追加的分析が可能な属性データ(発言者や政党)もCSVの追加フィールドにあるといいですね。 さらにo3-high-mini 複数キーワードはOR検索、argparseで取得して、期間指定は確かに大事だね。まず短いのをデフォルトにして、数が少ない時だけ段々広くして試そう。 CSVの発言IDはcomment-idという名前で整数値、comment-bodyで発言テキスト。残りの名前は適当でいいです。 ファイル名/保存場所: defaultつきでargparseして エンコーディング: BOMなしUTF-8 区切り文字: カンマ区切り エラーハンドリング: エラーは即死でOK データクレンジング: 一旦なしで。動くものを作ってから観察します これで作れる?作れるなら作って。

https://chatgpt.com/share/67c9b1cb-3c14-8011-b4d8-7efe11d804af

生成されたスクリプトを適当に実行してみる

キーワード '所得控除' で検索中... 001 JSONパースに失敗しました ダメじゃん

このログをDevinに渡して実装してもらう

  • ChatGPTのログは直接読めないんだそうだ、コピペで渡した
  • まず「国会会議録APIはXML形式でデータを返す」と言いながらXMLをパースするスタイルで実装した
  • nishio.iconJSONにできないの?

  • JSONにできないの?と聞いたらドキュメントを確認してパラメータを変更した
  • nishio.iconキーワード「所得控除」で1000件くらい集まる期間設定ができるか試してみて

Devin.iconJSON形式のサポートが正常に動作していることを確認し、キーワード「所得控除」でのデータ取得を試みた結果、846件のレコードが取得されました。目標の1000件には達していないため、さらに期間を広げて再度試すことにしました。

できた

nishio.iconXML形式をサポートする必要はない、スクリプトをシンプルにして

devin.icon テスト結果 簡略化したスクリプトで「所得控除」キーワードのテストを実行しました: python3 kokkai_api.py --keywords "所得控除" --start-date "2006-01-01" --end-date "2023-12-31" --output "income_deduction.csv" 結果: 1058件のレコードを正常に取得できました 以前と同様の機能を維持しながら、コードがよりシンプルになりました

可視化に入れてみたがトラブル

  • →後段の可視化システムが要求するフィールドの情報を僕が間違えていた

3/7現在国会図書館の議事録サーチの最新データは2/19で、2週間程度の遅れがあるようだ

公開した


(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]