בינה מלאכותית

AI Generative: הרעיון מאחורי CHATGPT, Dall-E, Midjourney ועוד

מְעוּדכָּן on אוגוסט

בינה מלאכותית גנרטיבית - הנחיה של Midjourney

עולם האמנות, התקשורת והאופן שבו אנו תופסים את המציאות משתנה במהירות. אם נסתכל אחורה על ההיסטוריה של החדשנות האנושית, נוכל לשקול את המצאת הגלגל או את גילוי החשמל כקפיצות מונומנטליות. כיום, מתרחשת מהפכה חדשה - מגשרת על הפער בין היצירתיות האנושית לחישוב מכונה. זה AI Generative.

מודלים גנרטיביים טשטשו את הגבול בין בני אדם למכונות. עם הופעתם של דגמים כמו GPT-4, שמשתמשים במודולי שנאים, התקרבנו ליצירת שפה טבעית ועתירת הקשר. ההתקדמות הללו הזינו יישומים ביצירת מסמכים, מערכות דיאלוג צ'טבוט ואפילו הרכב מוזיקה סינתטית.

החלטות ביג-טק האחרונות מדגישות את משמעותה. מיקרוסופט כבר הפסקת השימוש באפליקציית Cortana שלה החודש כדי לתעדף חידושים חדשים יותר של AI Generative, כמו Bing Chat. אפל גם הקדישה חלק נכבד ממנו תקציב מו"פ של 22.6 מיליארד דולר ל-AI גנרטיבי, כפי שציין המנכ"ל טים קוק.

עידן חדש של דגמים: Generative Vs. מפלה

הסיפור של AI Generative הוא לא רק על היישומים שלו אלא בעיקרו על פעולתו הפנימית. במערכת האקולוגית של הבינה המלאכותית קיימים שני מודלים: מפלה ומחולל.

מודלים מפלים הם מה שרוב האנשים נתקלים בחיי היומיום. אלגוריתמים אלה לוקחים נתוני קלט, כגון טקסט או תמונה, ומשדכים אותם עם פלט יעד, כמו תרגום מילים או אבחון רפואי. הם עוסקים במיפוי וחיזוי.

מודלים גנרטיביים, לעומת זאת, הם יוצרים. הם לא רק מפרשים או מנבאים; הם מייצרים פלטים חדשים ומורכבים מוקטורים של מספרים שלעתים קרובות אינם קשורים אפילו לערכים בעולם האמיתי.

הטכנולוגיות שמאחורי מודלים גנרטיביים

מודלים גנרטיביים חייבים את קיומם לרשתות עצביות עמוקות, מבנים מתוחכמים שנועדו לחקות את הפונקציונליות של המוח האנושי. על ידי לכידה ועיבוד של וריאציות רב-גוניות בנתונים, רשתות אלו משמשות עמוד השדרה של מודלים מחוללים רבים.

איך המודלים הגנרטיביים האלה מתעוררים לחיים? בדרך כלל, הם בנויים עם רשתות עצביות עמוקות, מותאמות ללכוד את הווריאציות הרב-גוניות בנתונים. דוגמה מצוינת היא רשת אדברסרית Generative (GAN), שבו שתי רשתות עצביות, המחולל והמבדיל, מתחרות ולומדים זו מזו ביחסי מורה-תלמיד ייחודיים. מציורים להעברת סגנון, מהרכב מוזיקה למשחק, הדגמים הללו מתפתחים ומתרחבים בדרכים שלא ניתן היה להעלות על הדעת בעבר.

זה לא נעצר עם GANs. קידוד אוטומטי משתנה (VAEs), הם שחקן מרכזי נוסף בתחום המודלים הגנרטיביים. VAEs בולטים ביכולתם ליצור תמונות פוטוריאליסטיות ממספרים אקראיים לכאורה. אֵיך? עיבוד המספרים הללו באמצעות וקטור סמוי מוליד אמנות המשקפת את המורכבות של האסתטיקה האנושית.

סוגי AI גנרטיבי: טקסט לטקסט, טקסט לתמונה

רובוטריקים & LLM

הנייר "תשומת הלב היא כל מה שאתה צריך" מאת Google Brain סימנה שינוי באופן שבו אנו חושבים על מודלים של טקסט. במקום ארכיטקטורות מורכבות ורציפות כמו רשתות עצביות חוזרות (RNNs) או Convolutional Neural Networks (CNNs), מודל ה-Transformer הציג את מושג הקשב, שמשמעותו בעצם התמקדות בחלקים שונים של טקסט הקלט בהתאם להקשר. אחד היתרונות העיקריים של זה היה קלות ההקבלה. בניגוד ל-RNN שמעבדים טקסט ברצף, מה שהופך אותם לקשים יותר לקנה מידה, רובוטריקים יכולים לעבד חלקים מהטקסט בו זמנית, מה שהופך את האימון למהיר ויעיל יותר על מערכי נתונים גדולים.

: דגם שנאי ארכיטקטורה

בטקסט ארוך, לא לכל מילה או משפט שאתה קורא יש אותה חשיבות. חלקים מסוימים דורשים יותר תשומת לב בהתבסס על ההקשר. היכולת הזו לשנות את המיקוד שלנו על סמך רלוונטיות היא מה שמנגנון הקשב מחקה.

כדי להבין זאת, חשבו על משפט: "Unite AI פרסם חדשות בינה מלאכותית ורובוטיקה." כעת, חיזוי המילה הבאה דורשת הבנה של מה החשוב ביותר בהקשר הקודם. המונח 'רובוטיקה' עשוי להצביע על כך שהמילה הבאה יכולה להיות קשורה לקידום או אירוע ספציפי בתחום הרובוטיקה, בעוד ש'פרסם' עשוי להצביע על כך שההקשר הבא עשוי להתעמק בפרסום או מאמר אחרונים.

: איור תשומת לב עצמית

מנגנוני הקשב ברובוטריקים נועדו להשיג את המיקוד הסלקטיבי הזה. הם מודדים את החשיבות של חלקים שונים בטקסט הקלט ומחליטים היכן "להסתכל" בעת יצירת תגובה. זוהי סטייה מארכיטקטורות ישנות יותר כמו RNN שניסו לדחוס את המהות של כל טקסט הקלט ל'מצב' או 'זיכרון' בודד.

ניתן להשוות את פעולת הקשב למערכת אחזור ערך מפתח. בניסיון לחזות את המילה הבאה במשפט, כל מילה קודמת מציעה 'מפתח' המצביע על הרלוונטיות הפוטנציאלית שלה, ובהתבסס על מידת התאמת המפתחות הללו להקשר הנוכחי (או השאילתה), הם תורמים 'ערך' או משקל ל- נְבוּאָה.

מודלים מתקדמים של למידה עמוקה של AI השתלבו בצורה חלקה ביישומים שונים, החל משיפורי מנוע החיפוש של גוגל עם BERT ועד ל-Copilot של GitHub, אשר רותם את היכולת של מודלים של שפה גדולה (LLMs) להמיר קטעי קוד פשוטים לקודי מקור פונקציונליים מלאים.

מודלים של שפה גדולה (LLMs) כמו GPT-4, Bard ו-LAMA, הם מבנים ענקיים שנועדו לפענח ולייצר שפה אנושית, קוד ועוד. הגודל העצום שלהם, שנע בין מיליארדים לטריליונים של פרמטרים, הוא אחד המאפיינים המגדירים. LLMs אלה מוזנים בכמויות עצומות של נתוני טקסט, המאפשרים להם לתפוס את נבכי השפה האנושית. מאפיין בולט של דגמים אלה הוא כישרונם ל"מעט זריקות"למידה. שלא כמו מודלים קונבנציונליים שצריכים כמויות אדירות של נתוני אימון ספציפיים, LLMs יכולים להכליל ממספר מצומצם מאוד של דוגמאות (או "זריקות")

מצב מודלים של שפה גדולה (LLMs) נכון לאמצע 2023

שם דגם	מפתח	פרמטרים	זמינות וגישה	מאפיינים והערות בולטים
GPT-4	OpenAI	1.5 טריליון	לא קוד פתוח, גישה ל-API בלבד	ביצועים מרשימים במגוון משימות יכולים לעבד תמונות וטקסט, אורך קלט מקסימלי 32,768 אסימונים
GPT-3	OpenAI	175 מיליארדים	לא קוד פתוח, גישה ל-API בלבד	הפגין יכולות למידה של מעט יריות ואפס יריות. מבצע השלמת טקסט בשפה טבעית.
BLOOM	BigScience	176 מיליארדים	דגם להורדה, מתארח API זמין	LLM רב לשוני שפותח על ידי שיתוף פעולה גלובלי. תומך ב-13 שפות תכנות.
למד"א	Google	173 מיליארדים	לא קוד פתוח, אין API או הורדה	מאומן בדיאלוג יכול ללמוד לדבר כמעט על כל דבר
MT-NLG	Nvidia/Microsoft	530 מיליארדים	גישת API לפי אפליקציה	משתמש בארכיטקטורת Megatron מבוססת שנאים עבור משימות NLP שונות.
לָאמָה	מטא AI	7B עד 65B)	ניתן להורדה לפי אפליקציה	מיועד לדמוקרטיזציה של בינה מלאכותית על ידי מתן גישה לאלה במחקר, בממשל ובאקדמיה.

כיצד משתמשים ב-LLMs?

ניתן להשתמש ב-LLM במספר דרכים, כולל:

שימוש ישיר: פשוט שימוש ב-LLM מיומן מראש להפקת טקסט או עיבוד. לדוגמה, שימוש ב-GPT-4 כדי לכתוב פוסט בבלוג ללא כל כוונון נוסף.
כוונון עדין: התאמת LLM מאומן מראש למשימה ספציפית, שיטה המכונה העברה למידת. דוגמה לכך תהיה התאמה אישית של T5 ליצירת סיכומים עבור מסמכים בתעשייה ספציפית.
אחזור מידע: שימוש ב-LLMs, כגון BERT או GPT, כחלק מארכיטקטורות גדולות יותר כדי לפתח מערכות שיכולות להביא ולסווג מידע.

: ארכיטקטורת כוונון עדין של ChatGPT

תשומת לב מרובה ראשים: למה אחד כשאפשר הרבה?

עם זאת, הסתמכות על מנגנון קשב אחד יכול להיות מגביל. למילים או רצפים שונים בטקסט יכולים להיות סוגים שונים של רלוונטיות או אסוציאציות. זה המקום שבו תשומת לב מרובה ראשים נכנסת לתמונה. במקום קבוצה אחת של משקלי קשב, תשומת לב מרובה ראשים משתמשת במספר סטים, מה שמאפשר למודל ללכוד מגוון עשיר יותר של קשרים בטקסט הקלט. כל "ראש" קשב יכול להתמקד בחלקים או היבטים שונים של הקלט, והידע המשולב שלהם משמש לתחזית הסופית.

ChatGPT: כלי הבינה המלאכותית הגנרטיבית הפופולרית ביותר

החל מההתחלה של GPT ב-2018, המודל נבנה למעשה על הבסיס של 12 שכבות, 12 ראשי קשב ו-120 מיליון פרמטרים, שאומנו בעיקר על מערך נתונים בשם BookCorpus. זו הייתה התחלה מרשימה, שהציעה הצצה לעתיד של מודלים לשפות.

GPT-2, שנחשף ב-2019, התהדר בגידול של פי ארבע בשכבות ובראשי תשומת לב. באופן משמעותי, ספירת הפרמטרים שלו זינקה ל-1.5 מיליארד. גרסה משופרת זו שאבה את ההכשרה שלה מ-WebText, מערך נתונים מועשר ב-40GB של טקסט מקישורי Reddit שונים.

ל-GPT-3, שהושק במאי 2020, היו 96 שכבות, 96 ראשי קשב וספירת פרמטרים מסיבית של 175 מיליארד. מה שמייחד את GPT-3 היה נתוני ההדרכה המגוונים שלו, הכוללים את CommonCrawl, WebText, ויקיפדיה האנגלית, קורפוסי ספרים ומקורות נוספים, בשילוב של 570 GB בסך הכל.

המורכבויות של הפעילות של ChatGPT נשארות סוד שמור היטב. עם זאת, תהליך המכונה 'למידה חיזוק ממשוב אנושי' (RLHF) ידוע כמרכזי. טכניקה זו, שמקורה בפרויקט ChatGPT מוקדם יותר, הייתה חלקית בחידוד מודל ה-GPT-3.5 כך שיהיה מיושר יותר עם הוראות כתובות.

ההדרכה של ChatGPT כוללת גישה תלת-שכבתית:

כוונון עדין מפוקח: כולל איסוף קלט ויציאות שיחה שנכתבו על ידי אדם כדי לחדד את המודל הבסיסי של GPT-3.5.
דוגמנות תגמול: בני אדם מדרגים תפוקות מודל שונות על סמך איכות, ועוזרות להכשיר מודל תגמול שמקבל ציונים לכל פלט בהתחשב בהקשר של השיחה.
למידת חיזוק: ההקשר השיחה משמש רקע שבו המודל הבסיסי מציע תגובה. תגובה זו מוערכת על ידי מודל התגמול, והתהליך עובר אופטימיזציה באמצעות אלגוריתם בשם אופטימיזציה של מדיניות פרוקסימלית (PPO).

לאלו שרק טובלים את אצבעותיהם ב-ChatGPT, ניתן למצוא מדריך התחלה מקיף כאן. אם אתה מעוניין להעמיק בהנדסה מיידית עם ChatGPT, יש לנו גם מדריך מתקדם המסביר את הטכניקות העדכניות ביותר והעדכניות ביותר, זמין ב-'ChatGPT והנדסת הנחיות מתקדמת: מניע את התפתחות הבינה המלאכותית'.

דיפוזיה ומודלים מולטי-מודאליים

בעוד שמודלים כמו VAE ו-GANs מייצרים את התפוקות שלהם במעבר אחד, ומכאן נעולים בכל מה שהם מייצרים, מודלים של דיפוזיה הציגו את הרעיון של 'חידוד איטרטיבי'. בשיטה זו הם מעגלים אחורה, משכללים טעויות משלבים קודמים, ומייצרים בהדרגה תוצאה מלוטשת יותר.

מרכזית במודלים של דיפוזיה היא אומנות "שחיתות" ו"עידון". בשלב ההכשרה שלהם, תמונה טיפוסית מושחתת בהדרגה על ידי הוספת רמות שונות של רעש. הגרסה הרועשת הזו מוזנת לאחר מכן לדגם, שמנסה 'לדעוך' או 'להשחית' אותו. באמצעות סבבים מרובים של זה, המודל הופך להיות מיומן בשחזור, תוך הבנה של סטיות עדינות ומשמעותיות כאחד.

: תמונה שנוצרה מ-Midjourney

תהליך יצירת תמונות חדשות לאחר האימון הוא מסקרן. החל מקלט אקראי לחלוטין, הוא משתכלל ללא הרף באמצעות תחזיות המודל. הכוונה היא להשיג תמונה בתולית עם מספר מינימלי של צעדים. השליטה ברמת השחיתות נעשית באמצעות "לוח זמנים לרעש", מנגנון שקובע כמה רעש מופעל בשלבים שונים. מתזמן, כפי שניתן לראות בספריות כמו "מפזרים", מכתיב את אופי העיבודים הרועשים הללו בהתבסס על אלגוריתמים מבוססים.

עמוד שדרה אדריכלי חיוני עבור דגמי דיפוזיה רבים הוא UNet-רשת עצבית קונבולוציונית המותאמת למשימות הדורשות פלטים המשקפים את הממד המרחבי של קלט. זהו שילוב של שכבות דגימה מטה והעלאה, המחוברות בצורה מורכבת לשמירה על נתונים ברזולוציה גבוהה, חיונית עבור פלטים הקשורים לתמונה.

התעמקות בתחום המודלים הגנרטיביים, של OpenAI DALL-E2 מתגלה כדוגמה נוצצת למיזוג של יכולות AI טקסטואלי וויזואלי. הוא מעסיק מבנה תלת-שכבתי:

DALL-E 2 מציג ארכיטקטורה משולשת:

מקודד טקסט: הוא הופך את הנחיית הטקסט להטבעה מושגית בתוך מרחב סמוי. הדגם הזה לא מתחיל מהאפס. זה נשען על ההכשרה המוקדמת של OpenAI של שפה-תמונה קונטרסטית (CLIP) מערך הנתונים כבסיסו. CLIP משמש כגשר בין נתונים חזותיים וטקסטואליים על ידי לימוד מושגים ויזואליים באמצעות שפה טבעית. באמצעות מנגנון המכונה למידה ניגודית, הוא מזהה ומתאים תמונות עם התיאורים הטקסטואליים התואמים להן.
הקודמת: הטבעת הטקסט הנגזרת מהמקודד מומרת לאחר מכן להטבעת תמונה. DALL-E 2 בדק הן שיטות אוטורגרסיביות והן שיטות דיפוזיה עבור משימה זו, כאשר האחרונה מציגה תוצאות מעולות. מודלים אוטורגרסיביים, כפי שניתן לראות ב-Transformers וב-PixelCNN, יוצרים פלטים ברצפים. מצד שני, מודלים של דיפוזיה, כמו זה המשמש ב-DALL-E 2, הופכים רעש אקראי להטמעות תמונה חזויה בעזרת הטמעות טקסט.
המפענח: השיא של התהליך, חלק זה מייצר את הפלט החזותי הסופי בהתבסס על הנחיית הטקסט והטמעת התמונה מהשלב הקודם. המפענח של DALL.E 2 חייב את הארכיטקטורה שלו לדגם אחר, לִדאוֹת, שיכול גם לייצר תמונות ריאליסטיות מרמזים טקסטואליים.

: ארכיטקטורה פשוטה של מודל DALL-E

משתמשי Python מתעניינים ב לנגצ'יין כדאי לבדוק את ההדרכה המפורטת שלנו המכסה הכל, מהיסודות ועד טכניקות מתקדמות.

יישומים של AI גנרטיבי

דומיינים טקסטואליים

החל מטקסט, AI Generative השתנה מהותית על ידי צ'אטבוטים כמו ChatGPT. ישויות אלה, בהסתמכות רבה על עיבוד שפה טבעית (NLP) ומודלים של שפה גדולה (LLM), מוסמכות לבצע משימות החל מיצירת קוד ותרגום שפה ועד לסיכום וניתוח סנטימנטים. ChatGPT, למשל, ראה אימוץ נרחב, והפך למרכיב עיקרי עבור מיליונים. זה מתוגבר עוד יותר על ידי פלטפורמות בינה מלאכותית לשיחות, המבוססות על LLMs כמו GPT-4, כַּף הַיָד, ו BLOOM, שמפיקים טקסט ללא מאמץ, מסייעים בתכנות, ואפילו מציעים חשיבה מתמטית.

מנקודת מבט מסחרית, המודלים הללו הופכים יקרי ערך. עסקים מעסיקים אותם עבור מספר עצום של פעולות, כולל ניהול סיכונים, אופטימיזציה של מלאי וחיזוי דרישות. כמה דוגמאות בולטות כוללות Bing AI, BARD של גוגל ו-ChatGPT API.

אמנות

עולם התמונות ראה טרנספורמציות דרמטיות עם Generative AI, במיוחד מאז ההשקה של DALL-E 2 בשנת 2022. לטכנולוגיה זו, שיכולה לייצר תמונות מהנחיות טקסטואליות, יש השלכות אמנותיות ומקצועיות כאחד. למשל, midjourney מינפה את הטכנולוגיה הזו כדי לייצר תמונות ריאליסטיות מרשימות. הפוסט האחרון הזה מבטל את המיסטייזציה של Midjourney במדריך מפורט, המבהיר הן את הפלטפורמה והן את המורכבויות ההנדסיות המיידיות שלה. יתר על כן, פלטפורמות כמו Alpaca AI ו-Photoroom AI משתמשות ב-Generative AI עבור פונקציונליות מתקדמות של עריכת תמונות כגון הסרת רקע, מחיקת אובייקטים ואפילו שחזור פנים.

הפקת וידאו

הפקת וידאו, עוד בשלב המתהווה בתחום ה- Generative AI, מציגה התקדמות מבטיחות. פלטפורמות כמו Imagen Video, Meta Make A Video ו-Runway Gen-2 דוחפות את הגבולות של מה שאפשר, גם אם תפוקות מציאותיות באמת עדיין באופק. מודלים אלה מציעים שימוש משמעותי ליצירת סרטוני וידאו אנושיים דיגיטליים, כאשר יישומים כמו Synthesia ו-SuperCreator מובילים את המשימה. יש לציין, Tavus AI מציעה הצעת מכירה ייחודית על ידי התאמה אישית של סרטונים עבור חברי קהל בודדים, ברכה לעסקים.

יצירת קוד

קידוד, היבט הכרחי של העולם הדיגיטלי שלנו, לא נותר ללא פגע ב-Generative AI. למרות ש-ChatGPT הוא כלי מועדף, מספר יישומי AI אחרים פותחו למטרות קידוד. פלטפורמות אלו, כגון GitHub Copilot, Alphacode ו-CodeComplete, משמשות כמסייעות קידוד ואף יכולות לייצר קוד מהנחיות טקסט. מה שמסקרן הוא יכולת ההסתגלות של הכלים האלה. Codex, הכוח המניע מאחורי GitHub Copilot, יכול להיות מותאם לסגנון הקידוד של אדם, מה שמדגיש את פוטנציאל ההתאמה האישית של AI Generative.

סיכום

משלב יצירתיות אנושית עם מחשוב מכונה, הוא התפתח לכלי שלא יסולא בפז, עם פלטפורמות כמו ChatGPT ו-DALL-E 2 שדוחפות את הגבולות של מה שאפשר להעלות על הדעת. החל מיצירת תוכן טקסטואלי ועד לפיסול יצירות מופת ויזואליות, היישומים שלהם עצומים ומגוונים.

כמו בכל טכנולוגיה, ההשלכות האתיות חשובות ביותר. בעוד ש-Generative AI מבטיח יצירתיות חסרת גבולות, חיוני להפעיל אותו באחריות, להיות מודע להטיות אפשריות ולכוחה של מניפולציה בנתונים.

עם כלים כמו ChatGPT הופכים נגישים יותר, עכשיו זה הזמן המושלם לבדוק את המים ולהתנסות. בין אם אתה אמן, קודן או חובב טכנולוגיה, תחום הבינה המלאכותית הגנרטיבית גדושה באפשרויות שמחכות להיחקר. המהפכה לא באופק; זה כאן ועכשיו. אז, צלול פנימה!

AI גנרטיבי תופס את הבמה המרכזית בכנס Ai2023 4

לא לפספס

יכולות החשיבה האנלוגית של AI: מאתגר את האינטליגנציה האנושית?

עאיוש מיטל

ביליתי את חמש השנים האחרונות בשקיעת עצמי בעולם המרתק של למידת מכונה ולמידה עמוקה. התשוקה והמומחיות שלי הובילו אותי לתרום ליותר מ-50 פרויקטים מגוונים של הנדסת תוכנה, עם התמקדות מיוחדת ב-AI/ML. הסקרנות המתמשכת שלי משכה אותי גם לעבר עיבוד שפה טבעית, תחום שאני להוט לחקור עוד יותר.