הנדסה מהירה

מבט מקרוב על DALL-E 3 של OpenAI

יצא לאור

לפני 7 חודשים

אוקטובר 31, 2023

ב AI Generative העולם, להתעדכן בחדשות הוא שם המשחק. וכשזה מגיע ליצירת תמונות, Stable Diffusion ו אמצע מסע היו הפלטפורמה שכולם דיברו עליה - עד עכשיו.

OpenAI, בגיבוי ענקית הטכנולוגיה מיקרוסופט, הציג DALL E 3 ב- 20 בספטמבר 2023.

DALL-E 3 אינו רק יצירת תמונות; זה על הבאת הרעיונות שלך לחיים, בדיוק כמו שדמיינת אותם. והחלק הכי טוב? זה מהיר, כאילו, ממש מהר. יש לך רעיון, אתה מזין אותו ל-DALL-E 3, ובום, התמונה שלך מוכנה.

אז, במאמר זה, אנחנו הולכים לצלול עמוק לתוך מה זה DALL-E 3. נדבר על איך זה עובד, מה מייחד אותו מהשאר, ולמה זה יכול להיות הכלי שלא ידעת שאתה צריך. בין אם אתה מעצב, אמן או סתם מישהו עם הרבה רעיונות מגניבים, אתה תרצה להישאר בשביל זה. בואו נתחיל.

מה שחדש ב-DALL·E 3 הוא שהוא מקבל הקשר הרבה יותר טוב מ-DALL·E 2. ייתכן שגרסאות קודמות החמיצו כמה פרטים או התעלמו מכמה פרטים פה ושם, אבל DALL·E 3 נמצא בנקודה. זה קולט את הפרטים המדויקים של מה שאתה מבקש, נותן לך תמונה שקרובה יותר למה שדמיינת.

החלק המגניב? DALL·E 3 ו ChatGPT משולבים כעת יחד. הם עובדים יחד כדי לעזור לחדד את הרעיונות שלך. אתה מצלם קונספט, ChatGPT עוזר בכוונון עדין של ההנחיה, ו-DALL·E 3 מחייה אותו. אם אתה לא מעריץ של התמונה, אתה יכול לבקש מ-ChatGPT לצבוט את ההנחיה ולקבל את DALL·E 3 לנסות שוב. תמורת תשלום חודשי של $20, אתה מקבל גישה ל-GPT-4, DALL·E 3, ועוד הרבה תכונות מגניבות.

של מיקרוסופט בינג צ'אט שמה את ידיה על DALL·E 3 עוד לפני שה-ChatGPT של OpenAI עשה זאת, ועכשיו זה לא רק הארגונים הגדולים אלא כל מי שזוכה לשחק איתו בחינם. השילוב ב-Bing Chat וב-Bing Image Creator עושה את זה הרבה יותר קל לשימוש עבור כל אחד.

עליית דגמי הדיפוזיה

ב-3 השנים האחרונות, vision AI הייתה עדה לעליית מודלים של דיפוזיה, תוך כדי קפיצת מדרגה משמעותית, במיוחד ביצירת תמונות. לפני מודלים של דיפוזיה, רשתות אדפרסריות כלליות (GAN) היו הטכנולוגיה המומלצת ליצירת תמונות ריאליסטיות.

GANs

עם זאת, היו להם חלק מהאתגרים, כולל הצורך בכמויות אדירות של נתונים וכוח חישוב, מה שלעתים קרובות הפך אותם לקשים לטיפול.

זן שידור דגמים. הם הופיעו כחלופה יציבה ויעילה יותר ל-GANs. בניגוד ל-GAN, מודלים של דיפוזיה פועלים על ידי הוספת רעש לנתונים, ומטשטש אותם עד שנשארת רק אקראיות. לאחר מכן הם עובדים לאחור כדי להפוך את התהליך הזה, משחזרים נתונים משמעותיים מהרעש. תהליך זה הוכח כיעיל ופחות עתיר משאבים, מה שהופך את מודלי הדיפוזיה לנושא חם בקהילת הבינה המלאכותית.

נקודת המפנה האמיתית הגיעה בסביבות 2020, עם סדרה של מאמרים חדשניים והצגה של ה-CLIP של OpenAI טכנולוגיה, אשר קידמה משמעותית את יכולות הדיפוזיה של מודלים. זה הפך את מודלי הדיפוזיה לטובים במיוחד בסינתזה של טקסט לתמונה, מה שאפשר להם ליצור תמונות ריאליסטיות מתיאורים טקסטואליים. פריצות הדרך הללו היו לא רק ביצירת תדמית, אלא גם בתחומים כמו הרכב מוזיקלי ו מחקר ביו-רפואי.

כיום, מודלים של דיפוזיה הם לא רק נושא בעל עניין אקדמי אלא נמצאים בשימוש בתרחישים מעשיים בעולם האמיתי.

מודלים גנרטיביים ושכבות תשומת לב עצמית: DALL-E 3

מָקוֹר

אחת ההתקדמות הקריטיות בתחום זה הייתה האבולוציה של מודלים גנרטיביים, כאשר גישות מבוססות דגימה כמו מודלים גנרטיביים אוטומטיים ותהליכי דיפוזיה מובילים את הדרך. הם שינו מודלים של טקסט לתמונה, מה שהוביל לשיפורי ביצועים דרסטיים. על ידי פירוק יצירת התמונות לשלבים נפרדים, מודלים אלה הפכו לניתנים יותר וקלים יותר ללמידה של רשתות עצביות.

במקביל, לשימוש בשכבות תשומת לב עצמית היה תפקיד מכריע. שכבות אלה, שנערמו יחד, עזרו ביצירת תמונות ללא צורך בהטיות מרחביות מרומזות, בעיה שכיחה עם פיתולים. שינוי זה אפשר למודלים של טקסט לתמונה להתרחב ולהשתפר בצורה מהימנה, בשל תכונות קנה המידה המובנות היטב של שנאים.

אתגרים ופתרונות ביצירת תמונות

למרות ההתקדמות הללו, יכולת השליטה ביצירת תמונות נותרה אתגר. בעיות כמו מעקב מיידית, שבהן המודל עשוי שלא להיצמד לטקסט הקלט, היו נפוצות. כדי להתמודד עם זה, הוצעו גישות חדשות כגון שיפור כתוביות, שמטרתן לשפר את האיכות של שילובי טקסט ותמונה במערך נתונים של אימון.

הכיתוב שיפור: גישה חדשה

שיפור כתוביות כולל יצירת כיתובים באיכות טובה יותר לתמונות, אשר בתורו עוזר בהכשרת מודלים מדויקים יותר של טקסט לתמונה. זה מושג באמצעות כיתוב תמונה חזק המייצר תיאורים מפורטים ומדויקים של תמונות. על ידי אימון על הכיתובים המשופרים הללו הצליח DALL-E 3 להשיג תוצאות יוצאות דופן, הדומות מאוד לתצלומים ויצירות אמנות שהופקו על ידי בני אדם.

הדרכה בנושא נתונים סינתטיים

הרעיון של אימון על נתונים סינתטיים אינו חדש. עם זאת, התרומה הייחודית כאן היא ביצירת מערכת כיתוב תמונה חדשנית ותיאורית. ההשפעה של שימוש בכתוביות סינתטיות לאימון מודלים גנרטיביים הייתה משמעותית, מה שהוביל לשיפורים ביכולת של המודל לעקוב אחר הנחיות בצורה מדויקת.

הערכת DALL-E 3

באמצעות הערכה והשוואות מרובות עם דגמים קודמים כמו DALL-E 2 ו- Stable Diffusion XL, DALL-E 3 הוכיח ביצועים מעולים, במיוחד במשימות הקשורות למעקב מהיר.

השוואה בין מודלים של טקסט לתמונה על הערכות שונות

השימוש בהערכות ובאמות מידה אוטומטיות סיפק הוכחות ברורות ליכולותיה, וביסס את מעמדה כמחולל טקסט לתמונה מתקדם.

DALL-E 3 הנחיות ויכולות

DALL-E 3 מציע גישה הגיונית ומעודנת יותר ליצירת חזותיים. כשתגללו, תבחינו כיצד DALL-E מייצר כל תמונה, בשילוב של דיוק ודמיון המהדהד עם ההנחיה הנתונה.

בניגוד לקודמתה, הגרסה המשודרגת הזו מצטיינת בסידור עצמים באופן טבעי בתוך סצנה והצגת תכונות אנושיות בצורה מדויקת, עד למספר הנכון של אצבעות ביד. השיפורים מתרחבים לפרטים עדינים יותר וזמינים כעת ברזולוציה גבוהה יותר, מה שמבטיח פלט מציאותי ומקצועי יותר.

גם יכולות עיבוד הטקסט ראו שיפור מהותי. היכן שגרסאות קודמות של DALL-E יצרו טקסט ג'יבריש, DALL-E 3 יכול כעת ליצור אותיות קריאות ובסגנון מקצועי (לפעמים), ואפילו סמלי לוגו נקיים מדי פעם.

ההבנה של המודל לגבי בקשות תמונה מורכבות וניואנסיות שופרה משמעותית. DALL-E 3 יכול כעת לעקוב במדויק אחר תיאורים מפורטים, אפילו בתרחישים עם אלמנטים מרובים והוראות ספציפיות, להדגים את יכולתו לייצר תמונות קוהרנטיות ומורכבות היטב. בוא נחקור כמה הנחיות ואת הפלט המתאים שקיבלנו:

Design the packaging for a line of organic teas. Include space for the product name and description.

תמונות DALL-E 3 המבוססות על הנחיות טקסט (שים לב שלפוסטר השמאלי יש איות שגוי)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

תמונות DALL-E 3 מבוססות על הנחיות טקסט

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

תמונות DALL-E 3 מבוססות על הנחיות טקסט (שים לב שלשני הפוסטרים יש איות שגוי)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.

תמונות DALL-E 3 מבוססות על הנחיות טקסט

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.

תמונות DALL-E 3 מבוססות על הנחיות טקסט

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.

תמונות DALL-E 3 מבוססות על הנחיות טקסט

מגבלות וסיכונים של DALL-E 3

OpenAI נקטה צעדים משמעותיים לסינון תוכן מפורש מנתוני ההדרכה של DALL-E 3, במטרה להפחית הטיות ולשפר את תפוקת המודל. זה כולל יישום של מסננים ספציפיים עבור קטגוריות תוכן רגישות ועדכון של ספים עבור מסננים רחבים יותר. מחסנית ההפחתה כוללת גם כמה שכבות של אמצעי הגנה, כגון מנגנוני סירוב ב-ChatGPT לנושאים רגישים, מסווגי קלט דחופים למניעת הפרות מדיניות, רשימות חסימות עבור קטגוריות תוכן ספציפיות וטרנספורמציות כדי להבטיח שההנחיות תואמות את ההנחיות.

למרות ההתקדמות שלו, ל-DALL-E 3 יש מגבלות בהבנת יחסים מרחביים, עיבוד טקסט ארוך בצורה מדויקת ויצירת תמונות ספציפיות. OpenAI מכיר באתגרים הללו ועובד על שיפורים לגרסאות עתידיות.

החברה גם עובדת על דרכים להבדיל בין תמונות שנוצרו על ידי AI מאלה שנוצרו על ידי בני אדם, המשקפות את המחויבות שלהם לשקיפות ושימוש אחראי ב-AI.

DALL E 3

DALL-E 3, הגרסה העדכנית ביותר, תהיה זמינה בשלבים החל מקבוצות לקוחות ספציפיות ובהמשך תתרחב למעבדות מחקר ושירותי API. עם זאת, עדיין לא אושר תאריך שחרור ציבורי בחינם.

OpenAI באמת מציבה סטנדרט חדש בתחום הבינה המלאכותית עם DALL-E 3, המגשרת בצורה חלקה בין יכולות טכניות מורכבות וממשקים ידידותיים למשתמש. השילוב של DALL-E 3 בפלטפורמות בשימוש נרחב כמו Bing משקף מעבר מיישומים מיוחדים לצורות רחבות ונגישות יותר של בידור ותועלת.

מחליף המשחקים האמיתי בשנים הקרובות יהיה ככל הנראה האיזון בין חדשנות והעצמת משתמשים. חברות שישגשגו יהיו אלה שלא רק דוחפות את הגבולות של מה שבינה מלאכותית יכולה להשיג, אלא גם מספקות למשתמשים את האוטונומיה והשליטה שהם רוצים. OpenAI, עם מחויבותה לבינה מלאכותית אתית, מנווטת את הנתיב הזה בזהירות. המטרה ברורה: ליצור כלי בינה מלאכותית שהם לא רק חזקים, אלא גם אמינים וכוללים, כדי להבטיח שהיתרונות של בינה מלאכותית יהיו נגישים לכולם.

הנחיה אנלוגית וצעד אחורה: צלילה אל ההתקדמות האחרונה מאת Google DeepMind

לא לפספס

פריצה מהירה ושימוש לרעה ב-LLMs

עאיוש מיטל

ביליתי את חמש השנים האחרונות בשקיעת עצמי בעולם המרתק של למידת מכונה ולמידה עמוקה. התשוקה והמומחיות שלי הובילו אותי לתרום ליותר מ-50 פרויקטים מגוונים של הנדסת תוכנה, עם התמקדות מיוחדת ב-AI/ML. הסקרנות המתמשכת שלי משכה אותי גם לעבר עיבוד שפה טבעית, תחום שאני להוט לחקור עוד יותר.

Unite.AI

מבט מקרוב על DALL-E 3 של OpenAI

הנדסה מהירה

מבט מקרוב על DALL-E 3 של OpenAI

תוכן העניינים

עליית דגמי הדיפוזיה

מודלים גנרטיביים ושכבות תשומת לב עצמית: DALL-E 3

אתגרים ופתרונות ביצירת תמונות

הכיתוב שיפור: גישה חדשה

הדרכה בנושא נתונים סינתטיים

הערכת DALL-E 3

DALL-E 3 הנחיות ויכולות

מגבלות וסיכונים של DALL-E 3

הודעות האחרונות

Unite.AI

מבט מקרוב על DALL-E 3 של OpenAI

תוכן העניינים

עליית דגמי הדיפוזיה

מודלים גנרטיביים ושכבות תשומת לב עצמית: DALL-E 3

אתגרים ופתרונות ביצירת תמונות

הכיתוב שיפור: גישה חדשה

הדרכה בנושא נתונים סינתטיים

הערכת DALL-E 3

DALL-E 3 הנחיות ויכולות

מגבלות וסיכונים של DALL-E 3

אתה עשוי לאהוב

הודעות האחרונות