In-context Autoencoder for Context Compression in a Large Language Model
2307.06945 In-context Autoencoder for Context Compression in a Large Language Model

この論文は、大規模言語モデル(LLM)のコンテキスト長の制約を解決するために、In-context Autoencoder (ICAE)を提案しています。ICAEは以下のような特徴を持っています。
LLMの力を利用して、長いコンテキストを短いメモリースロットに圧縮することができる。
AutoencodingとLanguage Modelingの2つの目的関数を用いて事前学習することで、メモリースロットが元のコンテキストを正確かつ包括的に表現することができる。
事前学習の後、命令データでファインチューニングすることで、様々なプロンプトとの相互作用を高める。
Llama-7bをベースに、約1%のパラメータ追加で4倍のコンテキスト圧縮を実現。推論時のレイテンシーとGPUメモリコストを改善。
LLMのメモリ化の洞察を与え、人間の作業記憶とLLMの表現学習の関連性という新しい観点を示唆。
コンテキスト管理におけるさらなる研究の可能性を示唆し、他の長いコンテキストのモデリング研究と組み合わせることができる。
ICAEは、LLMにおける長いコンテキストの問題に対処し、より強力なLLMでより大きな圧縮率を達成できる可能性を秘めた、シンプルかつスケーラブルなアプローチです。将来的にはマルチモーダルLLMへの応用も期待されています。

ICAEの実験結果から、人間の作業記憶とLLMの表現学習の間には興味深い関連性が示唆されています。
メモリの選択性
ICAEによるテキスト復元の例では、"large pretrained language model"が"large pretrained model"に、"The results prove"が"The experimental evidence proves"になるなど、完全一致ではない復元が見られました。これは、人間が同じテキストを暗記する際に犯すミスと類似しており、モデルが独自の理解に基づいて情報の一部を選択的に強調したり無視したりしていることを示唆しています。
知識量とメモリ化の関係
より強力なLLMほどメモリ化の必要性が低く、メモリ化の努力が小さくなる傾向があります。これは人間の学習と類似しており、豊富な知識を持つ個人ほど新しい情報を容易に習得できる一方、知識が限られている個人は丸暗記に頼る傾向があります。
コンテンツタイプによるメモリ化の違い
一般的なテキストは圧縮・復元が容易な一方、ランダムなテキストの圧縮・復元は非常に困難であることがわかりました。これは、LLMのメモリ化パターンが人間と非常に類似していることを強く支持しています。
事前学習によるメモリ化能力の向上
ICAEの事前学習は、LLMの作業記憶を向上させると考えられます。これは、広範なメモリトレーニングを通じて人間がメモリ容量を高め、脳のメモリエンコーディング能力を向上させることと類似しています。
これらの知見は、認知科学における作業記憶とLLMの表現学習(コンテキストウィンドウ)の関連性について新しい視点を提供するものです。今後、LLMの作業記憶のメカニズムをさらに解明することで、より効率的で人間に近いLLMの開発につながる可能性があります。また、人間の記憶のしくみの理解にもLLMの知見が役立つかもしれません。LLMと人間の認知の関係性の探求は、AIと認知科学の融合領域として今後ますます重要になっていくでしょう。