בינה מלאכותית

לקראת LoRAs שיכולות לשרוד שדרוגים של גרסאות מודל

Published January 30, 2025

Updated April 3, 2026

Martin Anderson

ChatGPT-4o: variation on ‘a 1792x1024 feature article reportage image of a skip full of discarded metal figurines, featuring realistic men and women of all ages and all types’

מאז סיקוריי האחרונים בנושא צמיחתן של Hunyuan Video LoRAs (קבצים קטנים, מאומנים, שיכולים להזריק אישיויות מותאמות אישית למודלים טקסט-וידאו ותמונה-וידאו בעלי מיליארדי פרמטרים), מספר ה-LoRAs הקשורות שזמינות בקהילת Civit גדל ב-185%.

על אף שאין דרכים פשוטות או בעלות מאמץ נמוך ליצור Hunyuan Video LoRA, קטלוג ה-LoRAs של ידוענים ונושאים ב-Civit גדל מדי יום. מקור: https://civitai.com/

הקהילה האותה, שמנסה ללמוד איך לייצר ‘אישיויות תוספת’ אלו ל-Hunyuan Video (HV), גם מחכה בקוצר רוח לשחרור ה-Image-to-Video (I2V) המובטח ב-Hunyuan Video.

בנוגע לסינתזה של תמונות אנושיות פתוחות, זהו עניין גדול; בשילוב עם צמיחת Hunyuan LoRAs, הוא יכול לאפשר למשתמשים להמיר תמונות של אנשים לווידאו בדרך שאינה משחיתה את זהותם כאשר הווידאו מתפתח – מה שכרגע הוא המצב בכל יוצרי וידאו מתקדמים, כולל Kling, Kaiber, ו-RunwayML המפורסם:

לחץ לשחק. יצירת וידאו מתמונה מ-RunwayML’s state-of-the-art Gen 3 Turbo model. אולם, בדומה לכל המודלים הדומים והפחותים, הוא אינו יכול לשמור על זהות עקבית כאשר הנושא מסתובב הרחק מהמצלמה, והמאפיינים הייחודיים של התמונה ההתחלתית הופכים ל-‘אישה דיפוזיה גנרית’. מקור: https://app.runwayml.com/

בפיתוח LoRA מותאמת אישית לאישיות הרלוונטית, היה אפשר, ב-HV I2V workflow, להשתמש בתמונה אמיתית שלהם כנקודת התחלה. זו זרע טובה יותר מאשר שליחת מספר אקראי לתוך המרחב הלטנטי של המודל והסתפקות בסצנה הסמנטית שתוצא. היה אפשר לאז להשתמש ב-LoRA, או במספר LoRAs, כדי לשמור על עקביות של זהות, תסרוקות, בגדים והיבטים אחרים של יצירה.

פוטנציאלית, זמינות של שילוב כזה יכולה לייצג אחד מהשינויים התקופתיים ביותר ב-AI יוצרת מאז שחרור Stable Diffusion, עם כוח יצירתי עצום המועבר לחובבי קוד פתוח, ללא הרגולציה (או ‘שומרי שער’, אם תרצו) המסופקת על ידי הצנזורים של תוכן בקבוצה הנוכחית של מערכות וידאו יוצרות.

כאשר אני כותב, Hunyuan image-to-video הוא ‘to do’ לא מסומן ב-repo ה-GitHub של Hunyuan Video, עם הקהילה החובבנית שדווחה (באופן אנקדוטלי) על הערה ב-Discord מפתח Hunyuan, שכביכול אמר ששחרור התכונה הושהה לאיזשהו זמן מאוחר יותר ב-Q1 בגלל שהמודל ‘לא מצונזר’.

רשימת התכונות הרשמית לשחרור של Hunyuan Video. מקור: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan

נכון או לא, מפתחי ה-repo סיפקו במידה רבה את שאר רשימת הבדיקה של Hunyuan, ולכן Hunyuan I2V נראה כאילו הוא עומד להגיע בסופו של דבר, בין אם מצונזר, לא מצונזר או בדרך כלשהי ‘ניתנת לנעילה’.

אבל כפי שאנו יכולים לראות ברשימה לעיל, שחרור I2V הוא בעצם מודל נפרד – מה שהופך את זה ללא סביר שאף אחד מ-HV LoRAs הנוכחיים הצומחים ב-Civit ובמקומות אחרים יפעל עם זה.

במצב הזה (שהוא כבר צפוי), פלטפורמות אימון LoRA כגון Musubi Tuner ו-OneTrainer יהיו או יושתקו או יוחזרו ביחס לתמיכה במודל החדש. בינתיים, אחד או שניים מהיוטיוברים המובילים ב-AI (והיזמים) ידרושו תמורה עבור פתרונותיהם באמצעות Patreon עד שהסצנה תתאושש.

עייפות שדרוג

כמעט אף אחד לא חווה עייפות שדרוג כמו חובב LoRA או עדינות; מכיוון שקצב השינוי המהיר והתחרותי ב-AI יוצרת מעודד את בתי היציקה של המודלים כגון Stability.ai, Tencent ו-Black Forest Labs לייצר מודלים גדולים יותר ו-(לפעמים) טובים יותר בתדירות המקסימלית האפשרית.

מכיוון שמודלים אלו החדשים והמשופרים יהיו לפחות בעלי הטיות ומשקולות שונות, ולרוב יהיו בעלי קנה מידה או ארכיטקטורה שונה, זה אומר שקהילת העדינות צריכה להוציא את המאגרים שלהם שוב ולחזור על תהליך האימון המג’ים עבור הגרסה החדשה.

מסיבה זו, סוגים רבים של Stable Diffusion LoRA זמינים ב-Civit:

שביל השדרוג, מוצג באפשרויות סינון חיפוש ב-civit.ai

מכיוון שאף אחד מהמודלים הקלים האלו אינו תואם לגרסאות מודל גבוהות או נמוכות יותר, ומכיוון שרבים מהם תלויים במיזוגים פופולריים ועדינות בקנה מידה גדול שמקפידים על מודל ישן, חלק משמעותי של הקהילה נוטה להיצמד ל’גרסה ישנה’, בדומה לנאמנות הלקוחות ל-Windows XP שנמשכה שנים אחרי שסיום התמיכה הרשמית.

הסתגלות לשינוי

נושא זה עולה בגלל מאמר חדש מ-Qualcomm AI Research שטוען שפיתח שיטה שבאמצעותה LoRAs קיימים יכולים ‘להשתדרג’ לגרסת מודל חדשה.

המרה של LoRAs בין גרסאות מודל. מקור: https://arxiv.org/pdf/2501.16559

זה לא אומר שהגישה החדשה, הנקראת LoRA-X, יכולה לתרגם בחופשיות בין כל המודלים מאותו סוג (כגון מודלים טקסט-תמונה, או Large Language Models [LLMs]); אבל המחברים הדגימו המרה יעילה של LoRA מ-Stable Diffusion v1.5 > SDXL, והמרה של LoRA עבור המודל הטקסטי TinyLlama 3T ל-TinyLlama 2.5T.

LoRA-X מעביר פרמטרים של LoRA בין בסיסי מודל שונים על ידי שימור ה-adapter בתת-מרחב של המודל המקורי; אבל רק בחלקים של המודל שדומים מספיק בין גרסאות מודל.

משמאל, סכמה לדרך שבה LoRA-X מקור מודל מעדין adapter, שאז מותאם להתאים למודל היעד באמצעות המבנה הפנימי שלו.

בעוד שזה מציע פתרון מעשי עבור תרחישים שבהם אימון מחדש אינו רצוי או אפשרי (כגון שינוי רישיון על נתוני האימון המקוריים), השיטה מוגבלת לארכיטקטורות מודל דומות, בין היתר.

גישות PEFT אחרות

האפשרות להפוך LoRAs לניידים יותר בין גרסאות היא חוט קטן אך מעניין של לימוד בספרות, והתרומה העיקרית ש-LoRA-X תורמת למרדף הזה היא טענתה שהיא אינה דורשת אימון. זה לא בדיוק נכון, אם קוראים את המאמר, אבל היא דורשת את האימון המועט ביותר מכל השיטות הקודמות.

LoRA-X היא עוד כניסה בקאנון של Parameter-Efficient Fine-Tuning (PEFT) methods, שמתמודדות עם אתגר האימון מחדש של מודלים מוכנים גדולים למשימות ספציפיות ללא אימון נרחב. גישה זו מטרתה לשנות מספר מינימלי של פרמטרים בעודה שומרת על ביצועים.

בולטים ביניהם:

X-Adapter

ה-X-Adapter framework מעביר עדינות adapters בין מודלים עם כמות מסוימת של אימון מחדש. המערכת תוכננה לאפשר מודולים מוכנים (כגון ControlNet ו-LoRA) ממודל דיפוזיה בסיס (כגון Stable Diffusion v1.5) לעבוד ישירות עם מודל דיפוזיה משודרג (כגון SDXL) ללא אימון מחדש – בעצם משמש כ-‘משדרג אוניברסלי’ עבור תוספים.

המערכת משיגה זאת על ידי אימון רשת נוספת ששולטת במודל המשודרג, באמצעות עותק קפוא של המודל הבסיסי כדי לשמור על מחברי תוספים:

סכמה ל-X-Adapter. מקור: https://arxiv.org/pdf/2312.02238

X-Adapter פותחה ונבדקה במקור להעביר adapters מ-SD1.5 ל-SDXL, בעוד LoRA-X מציעה מגוון רחב יותר של המרות.

DoRA (Weight-Decomposed Low-Rank Adaptation)

DoRA היא שיטת עדינות משופרת שמשפרת על LoRA על ידי שימוש באסטרטגיית פירוק משקולות שדומה יותר לעדינות מלאה:

DoRA לא רק מנסה להעתיק adapter בסביבה קפואה, כפי ש-LoRA-X עושה, אלא משנה פרמטרים בסיסיים של המשקולות, כגון גודל וכיוון. מקור: https://arxiv.org/pdf/2402.09353

DoRA מתמקדת בשיפור תהליך העדינות, על ידי פירוק המשקולות של המודל לגודל וכיוון (ראו תמונה לעיל). במקום זאת, LoRA-X מתמקדת באפשרות להעביר פרמטרים מעודנים קיימים בין בסיסי מודל שונים

FouRA (Fourier Low Rank Adaptation)

FouRA, שפורסמה ביוני 2024, באה, כמו LoRA-X, מ-Qualcomm AI Research, ואפילו חולקת חלק מהפרומפטים והנושאים שלה.

דוגמאות לקריסת התפלגות ב-LoRA, מהמאמר FouRA 2024, באמצעות המודל Realistic Vision 3.0 המאומן עם LoRA ו-FouRA עבור ‘Blue Fire’ ו-‘Origami’ style adapters, בארבע זרעים. תמונות LoRA מציגות קריסת התפלגות ואיבוד גיוון, בעוד FouRA מייצרת פלטים מגוונים יותר. מקור: https://arxiv.org/pdf/2406.08798

FouRA מתמקדת בשיפור הגיוון והאיכות של תמונות מיוצרות על ידי התאמה של LoRA בתחום התדירות, באמצעות גישת Fourier transform:

SVDiff

SVDiff תוכננה לשפר את יעילות העדינות של מודלי דיפוזיה, ומשנה ישירות ערכים בתוך מטריצות המשקולות, בעודה שומרת על הווקטורים הסינגולריים ללא שינוי. SVDiff משתמשת ב-SVD מקוצר, ומשנה רק את הערכים הגדולים ביותר, כדי לכוונן את משקולות המודל.

מסקנה

השיטות שהוצגו כאן אינן היחידות ב-PEFT. אחרות כוללות QLoRA ו-QA-LoRA; Prefix Tuning; Prompt-Tuning; ו-adapter-tuning, בין היתר.

ה-‘LoRA המשתדרג’ הוא, אולי, מרדף אלכימי; בוודאי, אין דבר מיידי על האופק שימנע ממודלרי LoRA מלהוציא את המאגרים הישנים שלהם שוב עבור הפרמטרים החדשים. אם יש סטנדרט כלשהו לשדרוג פרמטרים, שמסוגל לשרוד שינויים בארכיטקטורה ופרמטרים בין גרסאות מודל, הוא עדיין לא הופיע בספרות, ויצטרך להישאר מופק מהנתונים באופן ספציפי לכל מודל.

פורסם לראשונה ביום חמישי, 30 בינואר 2025

Related Topics:AI video video creation video diffusion

Martin Anderson

כותב על למידת מכונה, מומחה תחום בסינתזה של תמונות אנושיות. לשעבר ראש תוכן מחקר ב- Metaphysic.ai.
אתר אישי: martinanderson.ai
צור קשר: [email protected]
טוויטר: @manders_ai