Llama2のFine tuningガイド
ファインチューニングのサービスを提供している会社による自社サービスを使ってのファインチューニングの事例紹介
Llama-2モデル
いくつかのニッチなケースではGPT-4よりも優れている
非構造化テキストからの機能表現抽出(ViGGO)
SQL生成(SQL-create-context)
どちらも7Bで十分
特にLlama-13bでは、関数表現で58%から98%、SQL生成で42%から89%、GSMで28%から47%の精度の向上が見られた。
微調整の基本 3つのタスクすべてにおいて、我々は標準的な全パラメータのファインチューニング技術を使用する。
データをワーカー間でシャード DeepSpeedでモデルのシャーディング
特殊トークン
ViGGOの解説
ファインチューニングの有効性
以前のブログ記事で、私たちは「ファインチューニングは事実のためではなく、形のためにある」という考えについて述べた。
いくつかの重要な質問
モデル内部のニューラルネットワークの重みにはるかに多くの例を組み込むことができるからです。
ViGGOはパターン認識を中心に展開され、言語と基本的な概念の基本的な把握が必要だが、複雑な論理的推論は要求されない。
評価
Llama-2微調整モデルによるSQL生成
このタスクは、SQLの「構造」を学習し、自然言語をこの構造に変換するLLMの能力に成功がかかっている
結果
小学生の算数推論(GSM8k)
このデータセットでの微調整の課題は、前の2つとは異なる。単に構造を学習するのとは対照的に、我々はLLMが数学の問題に対する推論能力をどれだけ向上させることができるかを見たかった。
自然文で回答が出される場合に正しく答えられているか検証が困難なのでGPT-3.5で切り出した
chat版はそもそも7Bや13Bにおいて性能が高い
8kデータポイントでは足りないと判断してさらに増やすアプローチをして、さらによくなったと言っている