pLinkSuggest
2022-03-25
2020/9~2021/3
リンクサジェストに関するプロジェクトメモ
- リンクサジェスト(キーフレーズ抽出)に一般のユーザが使えるような解説を書く
- 公開はされているが使い方がわからない
- 聞き出しチャットシステム、リンクサジェストからRegroupへつなぐ仕組みを作る
きっかけ
キーフレーズ抽出→RAKE
→繰り返し出現するものを抽出するので、文章だけが与えられてそこからキーフレーズを抽出するのではなく、文章セットが与えられた方が良い
→文章セットとの間のリンクを発見する仕組みとして機能するはず
→Scrapboxのダンプと、未リンクのテキストを与えられて、リンクをサジェスト
Scrapboxキーフレーズサジェスト
https://link-suggest.netlify.app/
リンクサジェスト
今はScrapboxのデータを対象としたものと、書籍のデータを対象としたものが一緒のコードベースになってるけど、書籍版は公開すると著作権的に真っ黒だし、Scrapbox版はScrapbox特有の情報を使えばもっと良くなるので、プロジェクトとしては分けて、Scrapbox版だけ公開しとくのが良さそう
Scrapbox版
今後の案
- 裁断スキャンした蔵書を横断検索
- 蔵書横断検索
- 検索結果からヒットしたページに飛ぶのは技術的には可能だが公開すると著作権法的にダメ
- ブックマークレットで今表示してるコンテンツで検索
- 例えばTwitterやFacebookのスレッドから「それに関連するページ」をワンクリックで出せる
- 今一旦オフにしてる「Scrapboxの手動で付与したリンクの情報を使う機能」を戻して、名前の通り「新しいコンテンツに対してリンクをサジェストする」ところを深める
- リンク情報を使わない部分が予想以上に高速化できたのでテンション上がってしまった
- 聞き出しチャットシステム
- 与えた文書間に「いい感じ」のネットワークを作る
- いい感じとは?
- リンクの集中するページがない
- リンクを数本たどるだけでほとんどのページにたどり着ける