国会議事録可視化

2025-03-06 人間の労力をどれくらいAIにアウトソースできるかの実験

初手DeepResearch

日本の国会議事録のデータを取得する方法を調べて。Pythonとかでできるかな？アイデアを練るためにどのようなことが可能かざっくり知りたいさらにDeepResearch GETでJSONが得られるAPIは魅力的、特にキーワード検索は魅力的ですね。このAPIについてもっと詳しく調べましょう、過去にこのAPIを使って作られたものの情報を集めて「どのようなことが可能か」の描写をして次にo3-high-mini 上記のログを読んで、特定のトピックに対する議論を後段で可視化するためにCSV形式のデータとして出力するスクリプトが欲しい。まずそれを作るために必要な情報をまとめて、足りない情報があれば質問して。「特定のトピック」を選ぶ方法は議題や発言に対するキーワード検索で、後段ではLLMを使ったembeddingをするので発言データがメインになる。会話の流れや追加的分析が可能な属性データ(発言者や政党)もCSVの追加フィールドにあるといいですね。さらにo3-high-mini 複数キーワードはOR検索、argparseで取得して、期間指定は確かに大事だね。まず短いのをデフォルトにして、数が少ない時だけ段々広くして試そう。 CSVの発言IDはcomment-idという名前で整数値、comment-bodyで発言テキスト。残りの名前は適当でいいです。ファイル名/保存場所: defaultつきでargparseしてエンコーディング: BOMなしUTF-8 区切り文字: カンマ区切りエラーハンドリング: エラーは即死でOK データクレンジング: 一旦なしで。動くものを作ってから観察しますこれで作れる？作れるなら作って。

https://chatgpt.com/share/67c9b1cb-3c14-8011-b4d8-7efe11d804af

生成されたスクリプトを適当に実行してみる

キーワード '所得控除' で検索中... 001 JSONパースに失敗しましたダメじゃん

このログをDevinに渡して実装してもらう

ChatGPTのログは直接読めないんだそうだ、コピペで渡した
まず「国会会議録APIはXML形式でデータを返す」と言いながらXMLをパースするスタイルで実装した
JSONにできないの？
JSONにできないの？と聞いたらドキュメントを確認してパラメータを変更した
キーワード「所得控除」で1000件くらい集まる期間設定ができるか試してみて

JSON形式のサポートが正常に動作していることを確認し、キーワード「所得控除」でのデータ取得を試みた結果、846件のレコードが取得されました。目標の1000件には達していないため、さらに期間を広げて再度試すことにしました。

できた

XML形式をサポートする必要はない、スクリプトをシンプルにして

テスト結果簡略化したスクリプトで「所得控除」キーワードのテストを実行しました： python3 kokkai_api.py --keywords "所得控除" --start-date "2006-01-01" --end-date "2023-12-31" --output "income_deduction.csv" 結果： 1058件のレコードを正常に取得できました以前と同様の機能を維持しながら、コードがよりシンプルになりました

可視化に入れてみたがトラブル

→後段の可視化システムが要求するフィールドの情報を僕が間違えていた

3/7現在国会図書館の議事録サーチの最新データは2/19で、2週間程度の遅れがあるようだ

公開した

nishio/kokkai_api: 国会議事録API取得スクリプト

(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]