NISHIO Hirokazu[Translate]
Talk to the Cityと広聴AIの仕組み

某原稿から有用なので切り出してシェア

Talk to the Cityや広聴AIがどういう仕組みで動いているのかを簡単に説明します。

まず人々の発言などの自然言語データからLLMによって細粒度の表現を抽出します。
データは文字列のリストであればなんでもかまいません。
過去の事例では、X(Twitter)などのSNSからAPIで特定のキーワードを含むものを抽出したり、Google Formでお題に対する意見を集めたり、Google Mapの特定地域範囲に書かれたレビューを収集したり、Steamでゲームにつけられたコメントを集めたりなどが行われてきました。

「細粒度の表現」として何を抽出するのかはLLMに対するプロンプトで制御され、ユースケースに応じて変えることができます。
たとえば「意見」を抽出することができます。
他には「質問」や「批判」や「問題意識」などを抽出することもできます。
ユーザの投稿の中には複数の意見が含まれることもあれば、意見が含まれないこともあります。
個の抽出フェーズの処理によって、多様なユーザ投稿から、粒度の揃った分析対象の集合を作ります。

Talk to the City以前はこの抽出される細粒度表現が「キーワード」や「トピック」でした。
つまり、単語や数単語のフレーズだったわけです。
Talk to the Cityでは短文を抽出します。
このことによってよりよく意味を保持できるようになりました。

抽出ステップの次のステップでは、LLMを用いて短文を数千次元の高次元空間に埋め込みます。
2013年に登場したword2vecに始まるこの技術は、2020年代に入ってからBERTやGPTの登場で大きく進歩しました。
この埋め込みベクトルは、意味的に似ている短文が近くに配置されるように設計されています。
この埋め込みベクトルを使うことで、意味的に似ている短文を数学的に近いものとして扱うことができるようになりました。
これが可能になったことで、前段での抽出ステップで抽出される細粒度の表現としてキーワードではなく短文を抽出することが有用になったのです。

このステップ以降には多様なバリエーションがあります。
たとえば2018年に発明された時限削減手法のUMAPを使って数千次元のベクトル分布を2次元に次元削減し、散布図として可視化することができます。
高次元または低次元のベクトルに対してクラスタリングをかけて「似た意味の意見」のグループを作ることができます。
クラスタリングで作られたグループのなかにどのような意見があるのかを、LLMに読ませて解説を生成することができます。

広聴AIの特徴は、このクラスタリング部分で階層的クラスタリングを使うことです。
たとえば8000件のデータを20件のざっくりとしたグループにとして観察可能にし、興味を持ったものさらに20件の細かいグループに分けて深掘り観察する、という使い方ができます。
技術的には、最初にk平均法で400件のクラスターを作り、次に各クラスターに対して階層的クラスタリングをかけて20件まで凝集させる、という2段階のクラスタリングを行っています。

拙著『エンジニアの知的生産術』でも解説しましたが、このようにまずは大雑把に全体を俯瞰し、興味を持った部分を深掘りしていくスタイルは、知的生産において非常に有効です。
従来はこのような階層的な目次は人間が手作業で作る必要がありました。
大勢の人が口々に色々なことを言っているデータに対して、人間が整理をするのはとても大変です。
広聴AIのような技術によって、AIが階層的な目次を自動生成し、人間の知的生産を支援することが可能になりました。

広聴AIのもう一つの特徴は「濃い意見グループ」に注目する機能です。
これはベクトル空間上での点密度を用いて注目するクラスタを選ぶ機能です。
たとえば8000件のデータが400件のクラスタに分けられたとき、400件のクラスタの1つは平均的に全データの0.25%にあたる20件のデータを含むことになります。
これは今までは1%未満の少数意見として切り捨てられがちでした。
しかし、この20件のデータが例えば異なる人の異なる要求をする文章から抽出された類似の問題意識だった場合、これは重要な発見につながる可能性があります。
つまりこれは「予期しないつながり」の発見支援なのです。
もちろん、同一人物による繰り返し投稿や近しい人間による組織的投稿でも密度は高くなるのでこの尺度だけで重要性を判断することはできません。
将来的には、投稿者の多様性なども考慮に入れたスコアリングへと発展するでしょう。

"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]