TTTCの「離れ小島クラスタ」問題
Talk to the Cityでこういうやたら飛んだところに変なクラスタができる現象についての考察
観測事実: 離れ小島クラスターにfewshotで与えた例がいくつも重複して出てしまっている。

推測:
- うまく意見抽出できないインプットデータに対して
[]ではなくfewshotの例を返してしまうことがある
- 多分UMAPの挙動として、ほとんど同じ内容のデータ点がたくさん重なると「密度が高いクラスタがある」と判断する
- その結果、周辺の空間解像度が上がることによってこういう離れ小島の見た目になるのだと思う。
対策:
- このままユーザに見せるとほとんどのユーザは「この離れ小島はなんだろう?」と反応して、真っ先に見ることになる
- 離れ小島は「LLMへの指示が適切でないことによって誤って抽出された意見データ」なので、意見の可視化としては取り除く方がいい
- 「うまく意見を抽出できないデータ」の影響なのでそのデータに対する対処をfewshotに加えてやる
- 具体的にはこのクラスタの点をクリックしてLLMへの入力データを確認し、抽出すべき意見のない発言なら
[]、そうでないならその意見を返答としてプロンプトのfewshotに加えて抽出フェーズからやり直し
- クラスタ全部をやる必要はない、実感として1〜2件足すだけで解消する感じ
- 多分
[]をfewshotに追加することで「[]にするかどうか」の境界線が移動するんだと思う
余談だけどそもそもextractionの直後でuniqueしてしまう方がいいんじゃないかな...