הזווית של Anderson

מביאים תמונות מיוצרות באמצעות AI לאור עם HDR

Published April 26, 2026

Martin Anderson

AI-generated image (GPT-2): 'A mother and daughter take a selfie in a bedroom, with an empty dark closet in one version and a brightly revealed, surprised furry creature inside it in the other.'

תמונות ווידאו שנוצרו באמצעות AI עשויים להיות מרשימים, אך הם אינם עומדים בסטנדרטים המקצועיים – בעיה שפרויקט מחקר חדש מנסה לפתור.

בקהילת האודיו-ויזואלית המקצועית, אחד ההתנגדויות התכופות ביותר לחדירת ה- AI היא היעדר סטנדרטים מקצועיים של ריבוב תמונות ווידאו. לא פחות מאלה הוא היכולת לעבוד עם תמונות ווידאו בעלות High Dynamic Range (HDR).

תמונות HDR הן המקבילה המודרנית לשיטת צילום מהמאה ה-19/20 בשם בראקטינג, שבה אותה תמונה נלקחת מספר פעמים עם כמות הולכת וגדלה של אור המותר להגיע לאמולסיה:

למעלה, רצף בראקטינג קצר. משובץ למטה, הטווח הדינמי הגבוה שניתן לחלץ מתמונות אלה לתמונה אחת. מקור

בצילום מסורתי, תוצאה זו הייתה מספר תמונות שיכולות, עם מומחיות ומאמץ מסוימים, להרכיב לתמונה אחת שתועיל מכל הרמות השונות של פרטים הזמינים לאורך הטווח של החשיפות. אך זו לא הייתה משימה פשוטה או קלה.

היום, רצף תמונות ‘אוטו-בראקט’ יכול להפיק הן תמונות מרובות והן לשלב לתמונה HDR אחת – בעצם, ריבוי חשיפות בתמונה אחת, שאפליקציות עריכת תמונות התומכות ב-HDR כגון Photoshop יכולות לעבור דרכן, ולאפשר לצלם לנצח אותן לתמונת פלט אידיאלית.

אם אתה מתפלא למה אתה צריך לדאוג, או כיצד דבר כזה משפיע על הצילום שלך, האיור למאמר זה מיועד להדגים זאת בדרך מוכרת:

למעלה, משמאל, אנו רואים דוגמה טיפוסית לתמונה sRGB (כלומר, לא-HDR). פשוט להבהיר (המוצג בצד ימין) אותה, אינו מראה את המפלצת בארון, מכיוון שפרטים אלה הושלכו כאשר הצלם והתהליכים האוטומטיים של המצלמה החליטו מה לייחד בתמונה:

מתחת, ישנה הצבעה (שמאל) כיצד ‘מואר’ הוא הרקע היה צריך להיות בזמן החשיפה כדי לרשום את המפלצת בארון בתמונה לא-HDR, ו(ימין) כיצד המפלצת נופלת לחושך כאשר החשיפה נעשית מתאימה לנושאים המוארים היטב:

מתחת, אנו רואים את סוג הפרטים שניתן ל’הציל’ מתמונת HDR או רצף תמונות. במקרה זה, המפלצת ‘התחבאה’ ברמות הוויזואליות הנמוכות ביותר של רצף HDR, ברמה שבה תוכן אחר היה ‘נשרף’ ללבן (למעלה, שמאל). על ידי ציון שטווח רחב של רמות בהירות צריך להיות מובע, באופן סלקטיבי, באותה תמונה, אלמנטים אלה יכולים להרכיב לתמונה אחת רציונלית:

תמונה לא-HDR ידועה בתור תמונת הצגה, ותמונת HDR בעלת טווח גוונים גבוה היא ידועה בתור תמונת סצנה.

וידאו HDR הוא גם דבר, וסוג זה של גמישות טונאלית ודוקטיליות מעניק ליוצרי סרטים הרבה חופש פעולה להציל, לתת גרייד ולפרש צילומים במספר דרכים יצירתיות ועקביות; אין זה מפתיע, אפוא, שיוצרים נמנעים מלעבוד עם הפלט ה’משוטח’ הטיפוסי של מסגרות AI יוצרות.

HDR ב-AI

טבעי, זירת המחקר מעוניינת להביא את מסגרות AI המיוצרות לתקופת HDR:

אך זהו לא משימה פשוטה, הן בגלל הארכיטקטורה הבסיסית של מערכות יוצרות דיפוזיה, והן בגלל שנתונים HDR טובים תופסים הרבה מקום על דיסק, מה שהופך אותם לאוספים בלתי נוחים; עקב כך, מאגרי נתונים המתאימים למשימה הם נדירים.

בכל זאת, שיתוף פעולה בין אוניברסיטה בסינגפור ל-Adobe Research מציע שיטה לייצור רצפי תמונות HDR, בשיטה שניתן ליישם בעתיד גם לווידאו ולא רק לתמונות:

מאתר הפרויקט לעבודה החדשה, דוגמאות לפלט ‘בראקט’ של תמונה-לטקסט. מקור

המערכת החדשה יוצרת מספר גרסאות מסונכרנות של אותה תמונה ברמות בהירות שונות, ולומדת כמה בהיר היה הסצנה באמת, ואז משלבת אותם לתוצאה בודדת ששומרת על פרטים בצללים ובהילוכים, ומאפשרת עריכות מאוחרות יותר לחשיפה או צבע להתנהג יותר כמו התאמות ללכידת מצלמה אמיתית, ולא כמו התאמות עדינות לתמונה מעובדת לחלוטין.

המערכת מנצלת מגוון של מודלים שונים למשימה, כולל וריאנטים של Qwen ו-Flux:

דוגמאות מהנייר החדש, המראות כיצד המערכת יכולה לייצר גרסאות חשיפה מרובות של אותה הסצנה תוך שמירה על המבנה התחתון קבוע. החל ממפת קצוות פשוטה, המודל מייצר תמונות עקביות ברמות בהירות מאוד כהות עד מאוד בהיר, בין אם הפרומפט מתאר אור ירח, אור שמש, שקיעה או אפילו אובייקט קטן כמו בלון, עם נושא והרכב שנשארים יציבים כאשר רק התאורה משתנה. השיטה יכולה לשנות בהירות באופן מבוקר, כמו מצלמה, ולא בדרך של נדידה או המצאת תוכן חדש כאשר החשיפה משתנה. מקור

המחברים טוענים:

‘יצירת תמונות ליניאריות היא משימה אתגרית, שכן VAEs מוכשרים מראש במודלים דיפוזיים מתקשים לשמור על הילוכים וצללים קיצוניים בו-זמנית בגלל הטווח הדינמי הגבוה יותר ועומק הביטים.

‘לשם כך, אנו מייצגים תמונה ליניארית כרצף של בראקטים, כל אחד לוכד חלק מסוים של הטווח הדינמי, ומציעים ארכיטקטורת DiT-מבוססת על זרימת התאמה ליצירת בראקטים מותנית בטקסט.

‘אנו מדגימים יותר יישומים, כולל עריכת תמונות ליניאריות מונחות טקסט ויצירה מותנית-מבנה דרך ControlNet.’

העבודה החדשה נקראת יצירת תמונות ליניאריות על ידי סינתוז של בראקטים, ובאה מארבעה מחברים ב- S-Lab באוניברסיטת נאניאנג הטכנולוגית, Adobe NextCam, ו-Adobe Research. מלבד דף הפרויקט וסרטון יוטיוב המלווה את השחרור, יש גם אתר GitHub (שכרגע ריק), והבטחה לשחרור מאגר נתונים.

אף על פי שהמחברים מספקים הרבה דוגמאות של פלט מהמערכת בדף הפרויקט, הצופים יזדקקו למסך התומך ב-HDR כדי להבחין באמת באפיונים של הפלט HDR המוצג. בכל זאת, ראו את סרטון ה-YouTube של החוקרים – אך היו מודעים לכך שההבדלים בין הדוגמאות המוצגות עשויים לא להיות ברורים על מסך לא-HDR.

שיטה ונתונים

המחברים מדגישים את היקף האתגר באיסוף נתונים במרדף זה:

‘רכישת מספר גדול של תמונות ליניאריות היא משימה אתגרית ביותר בפועל. יתר על כן, רוב מאגרי הנתונים הציבוריים של HDR הם הפנורמיים (ולכן מתמקדים כמעט אך ורק בתוכן סצנה בקנה מידה גדול) או אינם סופקים תמונות ליניאריות אמיתיות, מה שהופך אותם לא מתאימים לצורכינו.

‘לכן, אנו משתמשים בעיקר במאגרי נתונים של תמונות RAW כבסיס לאימון.’

החוקרים עשו שימוש יצירתי באפשרויות המועטות שעמדו לרשותם, וניצלו את מאגר הנתונים RAISE כנתונים אמיתיים לאימון, ואת מאגר הנתונים MIT-Adobe FiveK כנתונים להערכה*.

כדי לבנות נתונים לאימון HDR שימושיים, החוקרים ריצו את קובצי המצלמה ה-RAW דרך צינור ליטוש מותאם, המרים את התמונות לפורמט ליניארי עקבי:

המערכת מתחילה מרעש המייצג ארבע רמות חשיפה של אותה סצנה, לצד פרומפט טקסט וטוקן בהירות, ועובדת אותם דרך בלוקים מעבדים מסונכרנים ששומרים על החשיפות השונות מסונכרנות בעודן מותאמות לתאורה. היא אז מנבאת הן את סט התמונות, והן את סולם הבהירות הכללי, ולאחר מכן מפענחת ומשלבת אותם לתמונת סצנה יחידה, השומרת על פרטים בצללים ובהילוכים.

סכמה של זרימת העבודה של המחברים: המערכת מתחילה מרעש המייצג ארבע רמות חשיפה של אותה סצנה, לצד פרומפט טקסט וטוקן בהירות. זה אז עובד דרך בלוקים מעבדים מסונכרנים ששומרים על החשיפות השונות מסונכרנות בעודן מותאמות לתאורה. היא אז מנבאת הן את סט התמונות, והן את סולם הבהירות הכללי, ולאחר מכן מפענחת ומשלבת אותם לתמונת סצנה יחידה, השומרת על פרטים בצללים ובהילוכים.

זה כלל בנייה מחדש של RGB מולטי נתונים, יישום תיקון צבע, נירמול איזון לבן, ותזוזה קצרה למרחב צבע תפיסתי לדיכוי רעש לפני חזרה לאותות ליניאריים נקיים. האור האמיתי בסצנה אז שוחזר באמצעות הגדרות החשיפה של המצלמה, כך שכל פיקסל ישקף בהירות אמיתית ולא קירוב המוצג.

כיוון שערכים כאלה יכולים להשתנות באופן משמעותי, הנתונים אז יוצבו על ידי כיול כל תמונה על סמך התפלגות הבהירות שלה, באמצעות סטטיסטיקות אמצע והילוכים כדי למנוע תמונות מוארות והילוכים ‘נשרפים’, ולבסוף להשיג תמונה ליניארית מתואמת ששומרת על טווח האור האמיתי בסצנה, תוך שמירה על יציבות מספקת לאימון.

תוויות טקסט לתמונות אז נוצרו עם המודל Qwen2.5-VL 7B, עם פרומפטים שנוצרו כדי להתאים לאפיונים של המודל Flux שייעשה בו שימוש בזמן יצירה.

כל תמונה חולקה ל’פרוסות’ חשיפה, ועברה דרך מקודד VAE משותף, הממיר את כל החשיפות למרחב לטנטי משותף, שנועד ללכוד את כל טווח הבהירות. הלטנטים אז עודכנו מרעש, ופוענחו בחזרה לתמונות, מאפשרים בנייה עקבית ברחבי אזורים כהים ובהירים, בלי לקרוס לחשיפה ‘משוטחת’ יחידה.

LoRA עדינות שומשה כדי לאפיין מחדש את השלד המוכשר של Flux לנתונים ליניאריים עם מינימום פרמטרים נוספים, ועזרה לדגם Single-Diffusion Transformers (single-DiT) להישאר יציב, אפילו כאשר הבהירות משתנה לאורך בראקטים.

Exposure Modulation Self-Attention (עמודה מרכזית באיור הסכמה לעיל) הוצגה כדי לעבד במשותף את כל הבראקטים, ואיפשרה לבהירות להשתנות לפי חשיפה בעודה שומרת על מבנה ופרטים עדינים מסונכרנים.

3D Rotary Positional Embedding (3D-R[o]PE) שומשה כדי לקודד הן את מיקום המרחב והן את זהות החשיפה, כך שהמודל יוכל להבחין לאיזו בראקט כל טוקן שייך, תוך שמירה על עקביות מרחבית, ואיפשרה הפרדה נקייה של שינויי בהירות מתוכן הסצנה.

סקירה של מאגר הנתונים המשמש במחקר, המראה כיצד התמונות מחולקות לסוגי תוכן וסצנות פנים וחוץ, לצד התפלגות ערכי הבהירות בנתונים המעובדים. ההיסטוגרמות מציגות בהירות וסולם רדיאנס במרחב לוג, וממחישות כיצד יכולה בהירות בעולם האמיתי להשתנות, כאשר ערכי רדיאנס גבוהים יותר מתאימים לסצנות פיזית בהירות יותר, ומדגישים את הטווח הדינמי החזק שהמודל מאומן להתמודד איתו.

3D-RoPE פיצלה היכן תכונה הייתה, ו’מאיזו חשיפה היא באה’ לאותות נפרדים, כך ששינויי בהירות יכולים להשתנות באופן עצמאי, מבלי לפגוע בפרטים המרחביים.

בדיקות

החוקרים השתמשו ב-Flux-dev כמסגרת יוצרת, עם אימון המתרחש על ארבע NVIDIA A100 עם 80GB זיכרון וידאו. גודל הבאטץ’ הוגדר ל-4 (לכל GPU), על פני 10,000 איטרציות.

LoRA עדינות השתמשה ב-דרגה של 64. ה-אופטימייזר AdamW שומש ב-קצב למידה של 2×10² (לחלק המודולציה של החשיפה).

המחברים מציינים כי בעוד יש שני עבודות קודמות הדומות בהיקף, אף אחת מהן לא הייתה מועמדת ברורה לשלב בדיקה. ה-GlowGAN בהובלת מכון מקס פלאנק מ-2022 מוגבלת ליצירת קטגוריות תמונות ספציפיות, בעוד Bracket Diffusion (שוב, בהובלת מכון מקס פלאנק) מ-2025 יכולה רק לייצר תמונת HDR ב-256x256px, ולוקחת מספר דקות לעשות זאת.

מהנייר המקורי של GlowGAN, תמונות LDR טיפוסיות מאבדות פרטים בצללים והילוכים, בעוד המודל לומד לייצר גרסאות HDR השומרות על פרטים לאורך רמות הבהירות, ומאפשרות שיקום של אזורים רוויים דרך מיפוי טון הפוך. מקור

לכן, בהיעדר בסיסליינים ישירים ליצירת תמונות ליניאריות, המחברים השוו את שיטתם עם גרסאות מותאמות של מודלים קיימים, ולא חלופות שנבנו במיוחד.

אחד הניסויים (‘T2I Fine-Tuning’) עידן את המודל הדיפוזי טקסט-ל-תמונה Flux באמצעות LoRA, ואימן אותו לייצר תמונות ליניאריות ישירות, והעריך כיצד מודל T2I מתקדם מתאים לתחום זה.

השוואה שנייה (‘T2V fine-tuning’) השתמשה במודל Wan 2.1 טקסט-ל-ווידאו, ש-VAE שלו מדחוס ארבע מסגרות לתצגית לטנטית משותפת; בהפעלה זו, ארבע בראקטים של חשיפה קודדו לתצגית לטנטית בודדת, ואז פוענחו, ובדקו האם צינור ליניארי וידאו יכול לדמות שינויי חשיפה.

הניסוי השלישי (‘T2I Model Inflation’) השווה נגד CameraCtrl ו-Generative Photography, ששניהם מרחיבים מודלי דיפוזיה של תמונות דרך מודולים זמניים, כדי לייצר פלטים רב-פריימים. גם אלה עודכנו באימון על אותם נתונים, להשוואה עקבית.

המדדים ששומשו היו Fréchet Inception Distance (FID); CLIP Sim score; Naturalness Image Quality Evaluator (NIQUE); CLIP Sim score; ו-Luminance Similarity (LS):

השוואה של שיטת המחברים נגד מספר בסיסליינים מותאמים ליצירת תמונות ליניאריות, עם עידון LoRA. מודלים טקסט-ל-תמונה (Flux) וטקסט-ל-ווידאו (Wan 2.1) משמשים לבדיקת כיצד מערכות יוצרות קיימות מתמודדות עם הגדרה זו, בעוד CameraCtrl ו-Generative Photography מרחיבים מודלי דיפוזיה באמצעות רכיבים זמניים. חלק מהציונים חסרים, מכיוון שחלק מהמודלים אינם יכולים לייצר בראקטים עקביים, הדרושים לשיקום הטווח הדינמי המלא. לאורך המדדים המדווחים, השיטה החדשה משיגה את התוצאות החזקות ביותר, במיוחד במדדים הקשורים לאיכות התמונה ושיקום בהירות מדויק.

באשר לתוצאות אלה, המחברים טוענים:

‘בגלל התפלגות הרחבה של תמונות ליניאריות, עידון ישיר של מודל T2I על נתונים ליניאריים הופך אותו לקשה לא

Related Topics:AI Image Editing AI image generation photo editing

Martin Anderson

כותב על למידת מכונה, מומחה תחום בסינתזה של תמונות אנושיות. לשעבר ראש תוכן מחקר ב- Metaphysic.ai.
אתר אישי: martinanderson.ai
צור קשר: [email protected]
טוויטר: @manders_ai

Unite.AI

מביאים תמונות מיוצרות באמצעות AI לאור עם HDR

HDR ב-AI

שיטה ונתונים

בדיקות

You may like