人工知能1 year ago
AIモデルのファインチューニングによる損傷は簡単に回復可能、研究が発見
米国からの新しい研究によると、AI基盤モデルを独自のデータでファインチューニングしても、元のモデルの機能性を低下させたり損なったりする必要はなく、比較的単純な修正により、元のモデルの能力を回復できるだけでなく、(すでに訓練済みの)モデルに生成させようとしている出力の品質を実際に向上させることができると示されています。この研究の意義は大きく、生成システムを「サービスとして」貸し出すことの経済的利益に注目が集まるテック大手だけでなく、より安価に、かつ制限が少なくパーソナライズされたAIライティングや画像/動画生成システムにアクセスするために、オープンソースモデルをダウンロードしてカスタマイズする「コードカッター」ホビイストが増えていることにも及びます。論文の著者らは、2023年に提出された論文『Holistic Transfer: Towards Non-Disruptive Fine-Tuning with Partial Target Data』(新論文の多くの貢献者と共著)に対して、明らかに大きな進歩をもたらす彼らの手法の可能性に対する熱意を隠そうとしていません。彼らは次のように述べています。「[発見は] 励みになるものであり、深遠な意味を持っています!これは、単純な後処理キャリブレーションが、ファインチューニングされたモデルの欠如クラスにおける劣った精度を潜在的に解決し、事前学習モデルの能力を取り戻しながら、全クラスにわたる改善された特徴品質を明らかにできることを意味します。」新しい研究についてすぐに見ていきます。まず、それが解決しようとしている問題を見てみましょう。なぜ重要なのかファインチューニングの最初の広範な波は、Stability.aiのテキストから画像へのモデルStable Diffusionが2002年8月にリリースされた後に起こりました。超大規模LAIONデータセットのサブセットで訓練された初期モデルは、誰でもダウンロードできるようになりました。しかし、Stable Diffusionの驚異的な生成品質に特定のコンテンツ(例えば、自分自身のアイデンティティ、アートスタイル、有名人の表現など)を挿入したいユーザーは、DreamBoothのような技術に頼る必要がありました。これは、Google Researchのカスタマイズ手法を拡張したもので、ユーザーがファインチューニングを介して自由に利用可能なモデルに新しいデータを訓練することができました。この方法により、特定の人物やカスタムアートスタイルの作成に非常に優れたモデルのコピーを手に入れることが可能でしたが、それはより一般的な使用には「損なわれた」状態になりました。これは、Stable Diffusionをファインチューニングして3人の異なる人物を正確に描写させたい場合、必然的にそれぞれ約2〜4GB(またはそれ以上)の3つの異なるモデルを作成しなければならないことを意味しました。これらのモデルを2回目にファインチューニングしようとする試みは、モデルの一般的な性能をさらに低下させるだけでなく、前回のファインチューニングセッションからの出力にも悪影響を及ぼしました。いずれにせよ、有名人のDreamBoothモデルはすぐにインターネット上で増殖し、主にcivit.aiドメインに集まりました。最終的には、Low-Rank Adaptation(LoRA)のような負担の少ない方法がファインチューニングの人気を上回りました(ただし、LoRAの出力が完全なファインチューニングと同等に効果的かどうかは議論の余地があり、NVIDIAはその後、DoRAと呼ばれる明らかに効果的なアプローチをオープンソース化しています)。LoRAは、モデルの訓練済みパラメータの一部のみに影響を与えるParameter-Efficient Fine-Tuning(PEFT)のカテゴリーに分類されます。一部のユーザーは、オープンソース化されたStable Diffusionのチェックポイントの根本的な性質を、何千もの画像でファインチューニングすることで変更したいと考えました。これは事実上、ユーザーが訓練しようとしていたドメイン(特定のアートスタイルなど)に特化した代替の基盤モデルを生み出しました。この目的のためには、モデルの重みが新しい訓練データに対して極端なバイアスを持つ必要があるため、LoRAのような「軽量な」方法は効果が低い可能性がありました。ローカルチャット大規模言語モデル(LLM)への関心が最近高まる中、ChatGPTのようなAPI駆動型サービスの増加する窓口(および関連コスト)を避けたいユーザーは、Llama 3など、効果的なオープンソースモデルをダウンロードしてファインチューニングし始めることが増えています。ここでも、完全なチェックポイントをファインチューニングする代わりにLoRAを使用できます。私たちは以前、ファインチューニングは、特定のユーザーのニーズに適応したLLMを生成するための優れた方法であると主張してきました。ファインチューニングはハードウェア要件が高く、時間がかかる可能性がありますが、ユーザーがモデルに同化させたい新しいデータのより深い一般化を提供します。ファインチューニングの問題点は、上記で述べたように、破壊的なプロセスであり、後で追加データに対して段階的に訓練できないことです。モデルに注入される特徴とバイアスは、明らかにデータセット内の元の重みのバランスを乱し、モデルがユーザー提供データを過度に反映しやすくなるか、少なくとも元の基盤モデルよりも全体的に(新しいデータに関連しないタスクで)性能が悪化することを意味します。これは、訓練中にモデルの特定の部分を凍結することで、ある程度まで改善できます。しかし、これは一般的な機能性の低下につながる可能性があります。なぜなら、凍結されたアーキテクチャの部分は、モデルの潜在空間内で新しくファインチューニングされたデータにうまく一般化しないかもしれないからです。したがって、ファインチューニングされたモデルの元の能力を保持しながら、ファインチューニングデータに基づいた出力を生成するモデルの能力も保持する、より簡単な方法があれば本当に素晴らしいでしょう。このような進展は、ローカルLLMや他の種類の生成モデルを使用するホビイストやアーリーアダプターから、FAANGレベル(非常に高価なAIモデルを、追加データで訓練を最初からやり直す数百万ドルの費用をかけずに、反復的かつ非破壊的に改善できる)まで、潜在的なユーザーの幅広い層に有益でしょう。後処理キャリブレーションこれは、新しい論文『Fine-Tuning is Fine, if Calibrated』に戻ります。この論文は、オハイオ州立大学、ウィスコンシン大学マディソン校、レンセラー工科大学の11人の研究者によるものです。研究者らは、基盤モデルがファインチューニングされるときに何が損傷するのかを正確に解明しようとしていました。彼らは、「前と後」のモデル間の唯一の大きな違いは、ファインチューニングクラスとモデル内の元のクラスにわたるロジットスケールに大きな不一致が生じることであると結論付けました。ロジットは、論理回帰プロセスにおける成功の確率を予測し、推定値(非常に正確な場合もある)を0または1に変換します。著者らは、この欠陥がキャリブレーション技術によってほぼ偶然に逆転可能であるだけでなく、この事後的な修正が実際にファインチューニングデータの出力品質を向上させることを発見しました。したがって、この技術を用いれば、基盤モデルの元の能力を得られるだけでなく、独自のファインチューニングデータのより良い統合が得られます。(論文では検討されていませんが、この技術は、モデルが複数回ファインチューニングされても効果を維持できる可能性を示唆しています)ファインチューニング後のモデル損傷の調査における彼らの発見について、著者らは次のように述べています。「驚いたことに、ファインチューニングされたモデルは、他のクラス間の関係を忘れることも、これらのクラスを認識するための特徴を劣化させることもありません。代わりに、ファインチューニングされたモデルは、ファインチューニング中に欠けていた場合でも、これらの他のクラスに対してより識別力のある特徴をしばしば生成します![実際に] 精度を損なうのは、ファインチューニングクラスと他の[クラス]との間の不一致したロジットスケールであり、これは単純な後処理キャリブレーションが事前学習モデルの能力を取り戻し、同時に全クラスにわたる特徴の改善を明らかにするであろうことを意味します。」著者らは、この理論のテスト結果をGitHubリポジトリで再現可能にしました。彼らは調査の結果、ファインチューニングで損傷する基盤モデルのアーキテクチャの唯一の部分は二値分類器であり、それは元のモデルに存在しないクラスをファインチューニングクラスとして誤分類することを発見しました。論文では次のように述べられています*:「[すべての欠如クラスのロジットにキャリブレーション・バイアス係数を追加することで [4, 40 ]、ファインチューニングされたモデルは欠如クラスの精度を首尾よく取り戻し、下流[ドメイン]でまともな全体的な改善を得ることができます。結果として得られる性能は、多くのベンチマーク(ImageNetとその亜種...