LlamaIndex

NISHIO Hirokazu [Translate]

LlamaIndex
雑な解説:
GPT3に、学習時に使われていないデータを参考資料としてプロンプトに含めることで
学習時に存在しなかった最新の情報
電子書籍などの著作権的にインターネット上でアクセス可能にできないデータ
グループウェアの中の顧客コンタクト履歴のデータなど社外に公開できないもの
〜などをGPT3が使うことができるようになる仕組み
典型的な利用法:
手元の文書からOpenAI APIで埋め込みベクトルを作る
クエリー文章に対して、関連のある文書をベクトル検索で見つける
その文書をGPT3へのプロンプトに埋め込む

repo: GitHub - jerryjliu/gpt_index: LlamaIndex (GPT Index) is a project that provides a central interface to connect your LLM's with external data.
docs: Welcome to LlamaIndex 🦙 (GPT Index)! — LlamaIndex documentation
3rd party blog: LlamaIndex クイックスタートガイド｜npaka｜note

old name: GPT-Index

自分のScrapboxをChatGPTにつないだ話勉強会

ベクトル検索

AIバルタサル・グラシアン実験

埋め込みベクトル

→precise_zero-shot_dense_retrieval_without_relevance_labels×仮説的文書埋め込み×Hypothetical Document Embeddings×hyde×instructgpt×contriever×埋め込みベクトル×blu3mo→

Hypothetical Document Embeddings

→埋め込みベクトル×ロジスティック回帰→

埋め込みベクトルにロジスティック回帰

→埋め込みベクトル×umap×クラスタリング×an_empirical_configuration_study_of_a_common_document_clustering_pipeline×tfidfvectorizer×bertopic×top2vec→

埋め込みベクトルをUMAPしてからクラスタリング

→過去に書いた文章×リンク×まだ書かれてないこと×過去に書いた関連記事×発見支援×過去に書いたことを忘れて何度も同じことを書いてしまう×ベクトル検索×過去に書いた関連記事の発見×発見×似ている→違いは？×認知の解像度→

発見してリンクする

→埋め込みベクトル×凝集クラスタリング×パブリックコメント→

埋め込みベクトルと凝集クラスタリングによるパブリックコメント分析実験

→hnsw×Hierarchical Navigable Small World Graph×skip_list×スキップリスト×スキップグラフ×lsh×navigable_small_world×approximate_nearest_neighbor_search_small_world_approach×qdrant×pinecore×ベクトル検索×階層的×スモールワールド→

Hierarchical Navigable Small World Graph

→openai_deep_research×ちゃんと読む×ベクトル検索×意味で検索×根無し草の知識×画面4分割にrectangle×人間が試さないといけない×机上の空論×現実に着地×地に足をつける×日記2025-02-10×日記2025-02-12×日記2024-11-03×日記2024-02-11→

日記2025-02-11

→ベクトル検索×「今書いている文章」で検索×scrapbox_chatgpt_connector×他人のscrapboxもベクトル検索したい→

Scrapbox「で」検索

→ベクトル検索×西尾のベクトル検索×pVectorSearch2023-04-29~05-31×pvectorsearch2023-06-02×pvectorsearch2023-06-05×pvectorsearch2023-06-06×pvectorsearch2023-06-07×pvectorsearch2023-06-13×日記2023-06-15×pvectorsearch2023-06-20×pvecsearch×pVecSearch2024-03-22振り返り×2024-09-17ベクトル検索止まってる✅×2024-09ベクトル検索の改善→

pVectorSearch

→ベクトル検索×qdrant→

Minimal RAM you need to serve a million vectors

→pVectorSearch×ベクトル検索×西尾のベクトル検索×pVectorSearch2023-04-29~05-31×pvectorsearch2023-06-02×pvectorsearch2023-06-05×qdrant×scrapbox_chatgpt_connector×埋め込みapi呼び出しの並列化×pvectorsearch2023-06-06×pvectorsearch2023-06-07×pvectorsearch2023-06-13×日記2023-06-15×非公開資料をベクトル検索対象にする×蔵書横断ベクトル検索×democratic_inputs_to_ai×omni×the_plurality_book×pvectorsearch2024-04-02×熟議×前提知識の共有→

pVecSearch2024-03-22振り返り

→埋め込みベクトル×textual_inversion×stable_diffusion×面影を求めてガチャを回し続ける人×心の中に生きてる×行ったことのない観光地で記念撮影×バーチャルリアリティ×リアル本人風アバター×メタバース×死んだ人が生き続ける世界としてのメタバース×下手な本人アバター×メタバースで永遠に飼われる×アイドル×顔を覆って家族以外に見せない→

Textual Inversionを試してみる

→オモイカネプロジェクト×オモイカネ勉強会×自分のScrapboxをChatGPTにつないだ話勉強会×omoikane_embed×AIと人間の知的な共同作業×aiによる赤リンクの延伸×生のchatgptとomniのユースケースが違う×非公開omniを使ってみての感想×ベクトル検索は切り出しの機会になる×ベクトル検索は認知の解像度を高める道具として機能する×Azure Cognitive Search: Outperforming vector search with hybrid retrieval and ranking capabilities×検索を組み合わせる×dpr×bm25×ベクトル検索×dense_passage_retriever×fusion_in_decoder×azure_cognitive_search×hnsw×リランク×hierarchical_navigable_small_world×西尾のベクトル検索×経験的に明らか×ベクトル検索が有用だった事例×社会保障費と科学技術関係経費の比較×名詞形×実現不可能なアイデアが独創的に見える×instruction_tuning×helpfeel×omoikane_vector_search×ベクトルインデックス×github_action×qdrant×omni×aiが毎日研究ノートを書く×aiとの共同化×人間がトリガーを引かなくても良い×pioneer_mode×ページをフォークしたい×マルチヘッド×ページメモリ×マルチヘッドの思考×話題のピン留め効果×aiノートの更新間隔について×recurrent_notesとiterative_commenterの違い×赤リンク×長いタイトルを刻むページ×当たり判定拡大×🌀交換様式d×情報交換は交換×知識交換の交換様式はaなのか×贈与の対象としての公共×説明のある検索×ベクトル検索とRAGの肌感の違い×「どの部分がaiでどの部分が人間か？」という問い×ai生成ページのタイトルに🤖を入れるのをやめた理由×aiページの底に埋もれてる×rag×概念は思考の経済性を高める道具×氷山モデル×公共の言葉と私的な言葉×エンジニアの知的生産術×(6.2.5.5)_公共の言葉と私的な言葉×seciモデル×交換様式論×共有の場×新しい交換様式×rlhf×非公開omni×横断ベクトル検索実験メモ2023-09-20×公開omniと非公開omniの感覚の違い×自分由来×scrapboxでの知識醸造をllmに教える×弁証法的発展×切り分けられていない連なりの一部にヒットすることで切り出しの機会になる×時間軸で並んだ記述からトピック指向で切り出される×適切な切り出し方は、ニーズが明らかになった後に決まる×切り出し×常緑のノートはアトミックであるべき×単一責任原則×死んだテキストを置く倉庫ではない×今考えていることを少しずつ違う方向から観察する×似ている→違いは？×認知の解像度×似ている×違い×言語化×物事をより詳細に観察×小さな収束ムーブとそこからの発散×アイデアの干渉効果×発想法×対立は近い関係×scrapboxに住んでるエージェント×scrapboxとaiに関する思考の結節点2023/8/16×上書きモード×aiの支援で新しい結合ができた事例×質問は言語化を促すが質問にも種類がある×enchiへの導入×aiの役割の明確化が大事×中学生の職場体験でsfプロトタイピングをやってもらった事例×流動的プロセスとしてのページ×思索と開発のトレードオフ×苦痛×このプロジェクトにおけるaiの役割は何か×複数の個性のaiがある？×aiノートのページごとに目的を明示したらいいのでは×苦痛の原因×異なるコンテンツの間のつながり発見×自分の日記に他人のaiを召喚×aiが無限に思考を発展させてくるので休めない×他のプロジェクトのurlを読めるという気づき×たまに浮かび上がるページ×「マルチヘッドの思考」と「エンジニアの知的生産術」×まとめを上に書く×___below_is_less_interesting___を__below_is_ai_generated__にした×🌀マルチヘッドの思考×🌀ai出島×iterative_commenter×aiシャーマン×松尾研のllm講座×aiによる異なる視点の提供の実例×歌詞をaiに解釈させる実験×不明瞭で長期的なタスクをaiにねりねりさせる×pdfからscrapboxへ×ビジネスはシーズとニーズのマッチング×メタ考察:ビジネスはシーズとニーズのマッチング×市場ニーズと個人ニーズ×深層の価値探求:_連携と成長×aiにページを発展させさせる×長い寝起き神託の考察×最近のモーニングルーティン2023-09-15×人生に関する歌詞を集めて気に入ったフレーズをピックアップする×llmに似ているものの違いを言語化させる×(仮)まだ名前のない操作×scrapboxを活用した思考とコミュニケーションの再構築×「人間」の概念が曖昧→

LLMによる知的生産性向上勉強会

→日記2023-12-06×2ホップリンク×ベクトル検索×隣接関係×親子関係×sentence-aware_contrastive_learning_for_open-domain_passage_retrieval×scrapboxは忘れたことを思い出させてくれる×ブラケティング→

Scrapboxの2ホップリンクは行と行をつなぐリンク

→日記2023-09-02×ベクトル検索×rag×肌感×aiによる赤リンクの延伸×西尾のベクトル検索×検索結果は編集をアフォードしない×編集をアフォード×書くのではなく削ることによる考えのアウトプット×retrieval-augmented_generation×目的に合わせて検索結果を要約する×説明のある検索×LLMによる知的生産性向上勉強会×横断ベクトル検索実験メモ2023-09-20×結局必要なのは検索の精度向上×pVectorSearch2023-04-29~05-31×aiとの協働作業の実態とs字カーブ→

ベクトル検索とRAGの肌感の違い

→日記2023-11-01×omni×時々上がってくるページ×時々浮かび上がってくるページ×omniの仕様バグ×iterative_commenter×ねりねりの価値が緩やかに減ってる×recurrent_notes×繰り返し要約をかけていくことによるkj法的効果×乱読のセレンディピティ×イベント記事は瀕死×レバレッジメモ×要約は曖昧概念×再利用可能コンポーネントの抽出×常緑のノートはアトミックであるべき×日記2023-11-02×動的セマンティックウェブと考える花火×連想による発展×ベクトル検索×rag×妄想による発展×積極的ハルシネーション×本を読む×読むとは何か×知識のネットワーク×バックリンク×2-hopリンク×scrapboxは忘れたことを思い出させてくれる×mem.nhiro.org×要約の概念を詳細化する→

omniに関する現時点での感想と思考の整理

→ベクトル検索×bertの異方性×embedding→

SimCSE

→bm25×hierarchical_navigable_small_world×hnsw×リランク×azure_cognitive_search×rag×ベクトル検索×検索→

Azure Cognitive Search: Outperforming vector search with hybrid retrieval and ranking capabilities

→dpr×bm25×ベクトル検索×dense_passage_retriever×retriever-reader×fusion_in_decoder×リランク×pksha×llm×ai王×クイズai→

検索を組み合わせる

→日記2023-09-29×ピラミッドを積み上げなくても良い×知識の積み上げが必要ないケース×地に足のついた×ピラミッド×軽く広がった網×側面×ベクトル検索→

連想で口走られた言葉が浅く感じる

→未知への旅:_結果の不確定性×すでに書かれた意味の断片×ベクトル検索×ページメモリ→

AIの思考：断片の探索と進化のダイナミクス

→サイボウズラボ勉強会×自分のScrapboxをChatGPTにつないだ話勉強会×pluralityとpolis勉強会×plurality×polis勉強会×オモイカネプロジェクト×worldcoin×sam_altman×world_id×人間性の証明×decentralized_identity×分散型id×ユニバーサル・ベーシック・インカム×american_equity×gdp×moore's_law_for_everything×aiを活用する企業×労働ではなく資本に課税しよう×資産課税×ubi×sybilrank×trust_seeds×ネットワーク効果×paypay×100億円あげちゃうキャンペーン×aiへのアクセスを独占させないためのubi×熟議支援システム×openai×democratic_inputs_to_ai×意思決定×少数の人間×公共の利益×多様な視点×民主的プロセス×概念実証×チーム×よりグローバルで、より野心的なプロセスの基礎×polis×世界観共有×sfプロトタイピング×発想する会社×コラボレーション×チームワーク×ドラえもん×付喪神×プロトタイプは思考を活性化する×プロトタイプ×ブレインストーミング×社会的な調和×集団主義×誰でも知っている×常識的概念×マイノリティ×ガラパゴス概念×無意識のバイアス×改善サイクル×アジャイル×イテレーション×徐々に改善×lean_startup×build-measure-learn_loop×minimum_viable_product×コミュニティ中心のai構築×コミュニティai×community-centered_ai×日本文化ai×retrieval-augmented_text_generation×ベクトル検索×g0v×サイボウズ式×reinforcement_learning_from_human_feedback×human_in_the_loop×people_in_the_loop×違和感×協調ゲーム×connecting_the_dots×正統的周辺参加×周辺参加×状況に埋め込まれた学習×実践共同体→

オモイカネ勉強会

→人間とaiが一緒に暮らす世界を作りたい×知的活動ができるai×知的な共同作業×aiの住んでるscrapbox×aiが毎日研究ノートを書く×ベクトル検索×断片的情報×統合×収束ムーブ×納得×道具としてのai×aiは友達×aiとの交換日記×aiがチームメンバーとして活躍する未来×ターン制コミュニケーション×読書ノートモード→

AIと人間の知的な共同作業

→オモイカネ勉強会の準備×chatgpt×scrapbox×kozaneba×omoikane_embed×ベクトル検索×不用知×text_composter×適切な切り出し方は、ニーズが明らかになった後に決まる×梅棹_忠夫×カード型データベース×読者とのインタラクション×aiとのインタラクション→

ChatGPTとScrapboxの効果的な連携とコンテンツの再利用

→掘り下げ×積み上げ×抽象的な概念×丸暗記している人は掘り下げられない×根無し草の知識×根×空中戦×抽象度の高い概念×具体的な事例×議論ごっこ×解釈×掘り下げて循環参照×出来るプログラマの学び方×実例×抽象化能力はどうすれば教えられるのか×具体的な事例への密着×根を張る×掘り下げられない×抽象概念×ベクトル検索→

知識の「掘り下げ」と「積み上げ」の重要性

→10年日記×ベクトル検索×植物的成長→

時間をかけて積み重なっていく思考

→pVectorSearch×ベクトル検索×盲点カード×画像と文章のペアに価値がある×自分のscrapboxをベクトル検索して2hopリンクをたどる×質問を収集して改善する×個人の知識ネットワークの相互作用×他人のscrapboxもベクトル検索したい×社会的トリガー×みずからの目で見なければならない→