人工知能

LoRAsがモデルバージョンアップグレードに耐えられるようにするためのアプローチ

Published January 30, 2025

Updated April 3, 2026

Martin Anderson

ChatGPT-4o: variation on ‘a 1792x1024 feature article reportage image of a skip full of discarded metal figurines, featuring realistic men and women of all ages and all types’

私の最近の記事では、Hunyuan Video LoRAs（小さな、トレーニング済みファイルで、多億パラメータのテキストからビデオやイメージからビデオの基礎モデルにカスタムの個性を注入できる）が、Civitコミュニティで185%増加したことが紹介されました。

Hunyuan Video LoRAを作成する容易で労力の少ない方法がないにもかかわらず、Civitの有名人やテーマのLoRAsカタログは毎日増えています。 ソース: https://civitai.com/

Hunyuan Videoのためのこれらの‘アドオン個性’を生成する方法を学ぼうとしている同じコミュニティは、Hunyuan Videoでイメージからビデオ（I2V）機能のリリースを待ち望んでいます。

オープンソースのヒューマンイメージ合成の観点から見ると、これは大きなことです。Hunyuan LoRAsの成長と組み合わせると、ユーザーは写真をビデオに変換できるようになりますが、ビデオが進むにつれて、写真の個性が劣化することはありません。これは、現在、Kling、Kaiber、RunwayMLなどの最先端のイメージからビデオの生成器でも同様です。

クリックして再生。 RunwayMLの最先端のGen 3 Turboモデルからのイメージからビデオの生成。ただし、他の同様のモデルやそれ以下のモデルと同様に、カメラから離れたときに個性を維持できません。開始イメージの特徴は‘一般的な拡散女性’になります。. ソース: https://app.runwayml.com/

カスタムLoRAを開発することで、HV I2Vワークフローで、実際の写真を開始点として使用できます。これは、モデル内の潜在空間へのランダムな数字の送信よりも、はるかに良い‘種’です。次に、LoRA（または複数のLoRA）を使用して、個性、髪型、服装、その他の重要な側面の生成の一貫性を維持できます。

このような組み合わせの利用可能性は、Stable Diffusionの発売以来、生成可能AIで最も重要な変化の一つとなり得ます。強力な生成能力が、オープンソース愛好家に渡され、現在の人気のgen vidシステムにあるコンテンツの検閲（または‘ゲートキーピング’）なしで提供されます。

現在、Hunyuanイメージからビデオは、未チェックの‘やること’です。Hobbyistコミュニティは、Hunyuan開発者からのDiscordコメントを報告しており、モデルが‘検閲されていない’ため、Q1後半にリリースが延期されたと述べています。

Hunyuan Videoの公式機能リリースチェックリスト。 ソース: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan

正確かどうかはわかりませんが、リポジトリの開発者は、Hunyuanのチェックリストの残りの部分についてはかなりよく対応しています。したがって、Hunyuan I2Vは、検閲されたかどうかはわかりませんが、最終的には到着する予定です。

しかし、リストを見ると、I2Vリリースは別個のモデルであることがわかります。これは、現在Civitや他の場所にあるHV LoRAsのいずれかが機能する可能性は低いことを意味します。

この（予測可能な）シナリオでは、LoRAトレーニングフレームワーク such as Musubi TunerとOneTrainerは、新しいモデルに対するサポートが遅れたり、リセットされたりする可能性があります。間もなく、最も技術的に優れた（そして起業家精神のある）YouTube AIの専門家の1、2人は、Patreonを通じて解決策を要求するでしょう。

アップグレードの疲労

LoRAやファインチューニングの愛好家は、ほとんどの人が経験するよりも、アップグレードの疲労をより多く経験します。生成可能AIの急速な変化と競争的なペースは、Stability.ai、Tencent、Black Forest Labsなどのモデルファウンドリーに、最大の頻度で最大のモデルを生成するよう促しています。

これらの新しいモデルは、少なくとも異なるバイアスと重みを持つことになります。より一般的には、異なるスケールと/またはアーキテクチャを持つことになります。これは、ファインチューニングコミュニティが新しいバージョンのために、厳しいトレーニングプロセスを繰り返さなければならないことを意味します。

この理由により、Civitには、さまざまなStable Diffusion LoRAバージョンタイプが利用可能です。

アップグレードの道、civit.aiの検索フィルターオプションで視覚化

これらの軽量LoRAモデルは、互換性がないため、より高いまたは低いモデルバージョンと互換性がありません。多くの場合、人気のある大規模なマージや古いモデルに依存するファインチューンに依存しています。したがって、コミュニティの大部分は、Windows XPが公式のサポート終了後も数年間忠実に使用されていたのと同様に、‘レガシーリリース’に留まる傾向があります。

変化に適応する

このテーマは、Qualcomm AI Researchからの新しい論文により、浮上しました。この論文では、既存のLoRAsを新しくリリースされたモデルバージョンに‘アップグレード’できる方法を開発したと主張しています。

モデルのバージョン間でのLoRAsの例の変換。 ソース: https://arxiv.org/pdf/2501.16559

これは、LoRA-Xと呼ばれる新しいアプローチが、すべてのモデルタイプ間で自由に翻訳できることを意味しません（たとえば、テキストからイメージのモデルまたは大規模言語モデル[LLM]）。しかし、著者は、Stable Diffusion v1.5からSDXLへのLoRAの有効な翻訳、およびTinyLlama 3TモデルからTinyLlama 2.5TへのLoRAの変換を実証しました。

LoRA-Xは、ソースモデルの部分空間内でアダプターを保存することで、異なるベースモデルの間でLoRAパラメータを転送します。ただし、モデルのバージョン間で十分に似ている部分のみで実行されます。

左側は、LoRA-Xソースモデルがアダプターをファインチューンする方法のスキーマです。これは、ターゲットモデルの内部構造を使用して調整されます。右側は、SD Eff-v1.0およびSSD-1Bのターゲットモデルによって生成されたイメージです。SD-v1.5およびSDXLから転送されたアダプターを適用した後、追加のトレーニングなしで生成されました。

LoRA-Xは、LoRAsを新しいモデルバージョンに‘アップグレード’できる方法を提供します。これは、再トレーニングが望ましくない、または不可能なシナリオでは実用的な解決策です。

他のPEFTアプローチ

LoRAsをモデルバージョン間でよりポータブルにする可能性は、研究文献の中で小さくて興味深い分野です。LoRA-Xがこの追求に貢献する主な点は、トレーニングが不要であるという主張です。これは厳密に真実ではありませんが、LoRA-Xは、すべての以前の方法の中で最もトレーニングが必要です。

LoRA-Xは、パラメータ効率的なファインチューニング（PEFT）方法の別のエントリです。これは、大規模な事前トレーニング済みモデルを特定のタスクに適応させる挑戦に対処します。LoRA-Xは、最小限のパラメータを変更しながら、パフォーマンスを維持することを目的としています。

注目すべきものは次のとおりです。

X-Adapter

X-Adapterフレームワークは、ある程度の再トレーニングを伴って、ファインチューンされたアダプターをモデル間で転送します。システムは、ベース拡散モデル（たとえば、Stable Diffusion v1.5）から、SDXLなどのアップグレードされた拡散モデルで直接動作する、事前トレーニング済みのプラグインモジュール（ControlNetやLoRAなど）を可能にします。

システムは、ベースモデルを凍結してプラグインコネクターを保存することで、これを達成します。

X-Adapterのスキーマ。 ソース: https://arxiv.org/pdf/2312.02238

X-Adapterは、SD1.5からSDXLへのアダプターの転送に最初に開発され、テストされました。LoRA-Xは、より広範な翻訳を提供します。

DoRA（Weight-Decomposed Low-Rank Adaptation）

DoRAは、LoRAを上回るファインチューニング方法です。DoRAは、重みの分解戦略を使用して、より完全なファインチューニングに近づきます。

DoRAは、アダプターを凍結した環境でコピーするのではなく、重みの基本的なパラメータ（大きさや方向など）を変更します。 ソース: https://arxiv.org/pdf/2402.09353

DoRAは、ファインチューニングプロセス自体を改善することに重点を置いています。モデルの重みを大きさと方向に分解します（上の画像を参照）。一方、LoRA-Xは、既存のファインチューンされたパラメータを異なるベースモデル間で転送することに重点を置いています。

しかし、LoRA-Xアプローチは、DORAで開発された投影テクニックを適応させており、テストでは、DINOスコアが向上したと主張しています。

FouRA（Fourier Low Rank Adaptation）

2024年6月に公開された、FouRA方法は、Qualcomm AI Researchから来ています。テストプロンプトやテーマも共有しています。

LoRAからの2024年のFouRA論文の、LoRAでの分布崩壊の例。 ソース: https://arxiv.org/pdf/2406.08798

FouRAは、LoRAを周波数ドメインで適応させることで、生成されたイメージの多様性と品質を向上させることに重点を置いています。フーリエ変換アプローチを使用します。

ここでも、LoRA-Xは、FouRAのフーリエベースアプローチよりも優れた結果を達成しました。

SVDiff

SVDiffも、LoRA-Xと異なる目標を持っています。拡散モデルのファインチューニングの効率を改善するように設計されています。モデルの重み行列内の値を直接変更しますが、特異ベクトルは変更しません。SVDiffは、SVDのトランク化を使用し、最も大きい値のみを変更して、モデルの重みを調整します。

このアプローチでは、Cut-Mix-Unmixというデータ増強テクニックを使用します。

SVDiffにおけるマルチサブジェクト生成。 ソース: https://arxiv.org/pdf/2303.11305

Cut-Mix-Unmixは、モデルのトレーニング中に、異なるサブジェクトの画像を単一の画像に結合することで、モデルの概念を分離するシステムとして機能します。次に、モデルのトレーニングでは、画像内の個々の要素を明示的に説明するプロンプトが使用されます。これにより、モデルの概念を認識して保存することができます。

トレーニング中には、追加の正則化項が、サブジェクト間の干渉を防ぐのに役立ちます。著者の理論では、これにより、マルチサブジェクト生成が改善され、各要素が視覚的に異なるままになることができるというものです。

SVDiffは、コンパクトなパラメータ空間を作成することを目的としています。一方、LoRA-Xは、モデルの部分空間内で動作することで、異なるベースモデル間でLoRAパラメータを転送することに重点を置いています。

結論

ここで説明した方法は、PEFTの唯一の存在ではありません。他の方法には、QLoRAとQA-LoRA、Prefix Tuning、Prompt-Tuning、およびアダプターチューニングなどがあります。

‘アップグレード可能なLoRA’は、ある種の錬金術的な追求であるかもしれません。ただし、LoRAモデラーが最新の重みのリリースのために古いデータセットを再度使用することを防ぐものは、現在のところ、地平線にありません。もし、重みのリビジョンのための可能なプロトタイプ標準が、モデルバージョン間のアーキテクチャの変更やパラメータの膨張に耐えられるものがあるとしたら、それはまだ文献に現れていません。したがって、引き続き、データからモデルごとに抽出する必要があります。

2025年1月30日木曜日に最初に公開されました