בינה מלאכותית

Multimodal AI Gemini של גוגל – צלילה טכנית עמוקה

מְעוּדכָּן on דצמבר 11, 2023

סונדאר פיצ'אי, מנכ"ל גוגל, יחד עם דמיס חסאביס מ-Google DeepMind הציג את תאומים בדצמבר 2023. מודל שפה גדול חדש זה משולב בכל מגוון המוצרים העצום של Google, ומציע שיפורים שמפרקים שירותים וכלים המשמשים מיליונים.

Gemini, ה-AI המולטי-מודאלי המתקדם של גוגל, נולד מהמאמצים המשותפים של מעבדות ה-DeepMind וה-Brain AI המאוחדות. Gemini עומדת על כתפיה של קודמיו, ומבטיחה לספק חבילת יישומים מחוברת ואינטליגנטית יותר.

ההכרזה על גוגל ג'מיני, ממוקמת מקרוב לאחר הופעת הבכורה של בארד, דואט AI וה-PaLM 2 LLM, מסמנת כוונה ברורה של גוגל לא רק להתחרות אלא להוביל במהפכת הבינה המלאכותית.

בניגוד לכל רעיון של חורף בינה מלאכותית, השקת ג'מיני מעידה על אביב AI משגשג, שופע פוטנציאל וצמיחה. כאשר אנו חושבים על שנה מאז הופעתה של ChatGPT, שבעצמה הייתה רגע פורץ דרך עבור AI, המהלך של גוגל מצביע על כך שהתרחבות התעשייה רחוקה מלהסתיים; למעשה, יכול להיות שזה רק תופס קצב.

מה זה תאומים?

מודל Gemini של גוגל מסוגל לעבד סוגי נתונים מגוונים כגון טקסט, תמונות, אודיו ווידאו. זה מגיע בשלוש גרסאות-Ultra, מִקצוֹעָן, ו ננו-כל אחד מותאם ליישומים ספציפיים, החל מנימוקים מורכבים ועד לשימוש במכשיר. Ultra מצטיינת במשימות רב-גוניות והיא תהיה זמינה ב-Bard Advanced, בעוד ש-Pro מציע איזון בין ביצועים ויעילות משאבים, שכבר משולבת ב-Bard עבור הנחיות טקסט. Nano, מותאם לפריסה במכשיר, מגיע בשני גדלים וכולל אופטימיזציית חומרה כמו קוונטיזציה של 4 סיביות לשימוש לא מקוון במכשירים כמו Pixel 8 Pro.

הארכיטקטורה של Gemini היא ייחודית ביכולת הפלט המולטי-מודאלית המקורית שלה, תוך שימוש באסימוני תמונה נפרדים ליצירת תמונה ושילוב תכונות אודיו ממודל הדיבור האוניברסלי להבנת אודיו ניואנסית. היכולת שלו לטפל בנתוני וידאו כתמונות עוקבות, שזורות בקלט טקסט או אודיו, מדגימה את יכולתו הרב-מודאלית.

Gemini תומך ברצפים של טקסט, תמונה, אודיו ווידאו כקלט

גישה לג'מיני

Gemini 1.0 מתפרסמת על פני המערכת האקולוגית של גוגל, כולל בארד, שנהנה כעת מהיכולות המעודנות של Gemini Pro. גוגל גם שילבה את Gemini בשירותי החיפוש, המודעות והדואט שלה, תוך שיפור חווית המשתמש עם תגובות מהירות ומדויקות יותר.

למי שמעוניין לרתום את היכולות של Gemini, Google AI Studio ו- Google Cloud Vertex מציעים גישה ל-Gemini Pro, כאשר האחרון מספק תכונות התאמה אישית ואבטחה גדולות יותר.

כדי לחוות את היכולות המשופרות של Bard המופעל על ידי Gemini Pro, משתמשים יכולים לבצע את הצעדים הפשוטים הבאים:

נווט אל בארד: פתח את דפדפן האינטרנט המועדף עליך ועבור לאתר Bard.
התחברות מאובטחת: גש לשירות על ידי כניסה עם חשבון Google שלך, מה שמבטיח חוויה חלקה ומאובטחת.
צ'אט אינטראקטיבי: כעת תוכל להשתמש ב-Bard, שם ניתן לבחור בתכונות המתקדמות של Gemini Pro.

כוחה של רב-מודאליות:

בבסיסו, Gemini משתמש בארכיטקטורה מבוססת שנאים, בדומה לאלו המופעלות בדגמי NLP מצליחים כמו GPT-3. עם זאת, הייחודיות של תאומים טמונה ביכולתה לעבד ולשלב מידע ממגוון אופנים, כולל טקסט, תמונות וקוד. זה מושג באמצעות טכניקה חדשה הנקראת תשומת לב חוצה אופנים, המאפשר למודל ללמוד קשרים ותלות בין סוגי נתונים שונים.

להלן פירוט של מרכיבי המפתח של תאומים:

מקודד רב-מודאלי: מודול זה מעבד את נתוני הקלט מכל אופנה (למשל, טקסט, תמונה) באופן עצמאי, מחלץ תכונות רלוונטיות ויוצר ייצוגים בודדים.
רשת תשומת לב חוצה אופנים: רשת זו היא הלב של תאומים. היא מאפשרת למודל ללמוד יחסים ותלות בין הייצוגים השונים, ומאפשרת להם "לדבר" זה עם זה ולהעשיר את הבנתם.
מפענח רב-מודאלי: מודול זה מנצל את הייצוגים המועשרים שנוצרו על ידי רשת הקשב הבין-מודאלית לביצוע משימות שונות, כגון כיתוב תמונה, יצירת טקסט לתמונה ויצירת קוד.

מודל מזל תאומים אינו עוסק רק בהבנת טקסט או תמונות - הוא עוסק בשילוב סוגים שונים של מידע בצורה שקרובה הרבה יותר לאופן שבו אנו, כבני אדם, תופסים את העולם. לדוגמה, מזל תאומים יכול להסתכל על רצף של תמונות ולקבוע את הסדר הלוגי או המרחבי של אובייקטים בתוכם. זה גם יכול לנתח את תכונות העיצוב של אובייקטים כדי לעשות שיפוט, כגון לאיזו משתי מכוניות יש צורה אווירודינמית יותר.

אבל הכישרונות של תאומים חורגים מהבנה ויזואלית בלבד. זה יכול להפוך קבוצה של הוראות לקוד, וליצור כלים מעשיים כמו טיימר ספירה לאחור שלא רק מתפקד לפי ההנחיות אלא גם כולל אלמנטים יצירתיים, כגון אימוג'י מוטיבציה, כדי לשפר את האינטראקציה של המשתמש. זה מצביע על יכולת להתמודד עם משימות הדורשות שילוב של יצירתיות ופונקציונליות - מיומנויות שנחשבות לרוב אנושיות מובהקות.

היכולות של מזל תאומים: חשיבה מרחבית (מָקוֹר)

היכולות של Gemini משתרעות על ביצוע משימות תכנות (מָקוֹר)

עיצוב מתוחכם של תאומים מבוסס על היסטוריה עשירה של מחקר רשתות עצביות וממנף את טכנולוגיית ה-TPU המתקדמת של גוגל לאימון. Gemini Ultra, במיוחד, קבעה אמות מידה חדשות בתחומים שונים של בינה מלאכותית, והציגה עליות ביצועים יוצאות דופן במשימות חשיבה רב-מודאלית.

עם היכולת שלה לנתח ולהבין נתונים מורכבים, Gemini מציעה פתרונות ליישומים מהעולם האמיתי, במיוחד בחינוך. הוא יכול לנתח ולתקן פתרונות לבעיות, כמו בפיזיקה, על ידי הבנת הערות בכתב יד ומתן כתיבה מתמטית מדויקת. יכולות כאלה מעידות על עתיד שבו AI מסייע במסגרות חינוכיות, ומציע לתלמידים ולמחנכים כלים מתקדמים ללמידה ולפתרון בעיות.

Gemini's מינפה ליצירת סוכנים כמו AlphaCode 2, המצטיינים בבעיות תכנות תחרותיות. זה מציג את הפוטנציאל של ג'מיני לפעול כ-AI כללי, המסוגל לטפל בבעיות מורכבות מרובות שלבים.

Gemini Nano מביא את הכוח של AI למכשירים יומיומיים, שומר על יכולות מרשימות במשימות כמו סיכום והבנת הנקרא, כמו גם אתגרים הקשורים לקידוד ואתגרים הקשורים ל-STEM. הדגמים הקטנים האלה מכוונים עדין כדי להציע פונקציונליות בינה מלאכותית באיכות גבוהה במכשירים בעלי זיכרון נמוך יותר, מה שהופך AI מתקדם לנגיש מתמיד.

הפיתוח של Gemini כלל חידושים באימון אלגוריתמים ותשתיות, תוך שימוש ב-TPUs העדכניים ביותר של גוגל. זה אפשר קנה מידה יעיל ותהליכי אימון חזקים, מה שמבטיח שאפילו הדגמים הקטנים ביותר מספקים ביצועים יוצאי דופן.

מערך ההדרכה עבור Gemini מגוון כמו היכולות שלו, כולל מסמכי אינטרנט, ספרים, קוד, תמונות, אודיו וסרטונים. מערך נתונים רב-מודאלי ורב-לשוני זה מבטיח שמודלים של Gemini יכולים להבין ולעבד מגוון רחב של סוגי תוכן ביעילות.

תאומים ו-GPT-4

למרות הופעתם של דגמים אחרים, השאלה העומדת בראש כולם היא איך ה-Gemini של גוגל מתמודד מול ה-GPT-4 של OpenAI, המדד של התעשייה עבור LLMs חדשים. הנתונים של גוגל מצביעים על כך שבעוד ש-GPT-4 עשוי להצטיין במשימות חשיבה תקינות, ידה של Gemini Ultra היא על העליונה כמעט בכל תחום אחר.

Gemini VS GPT-4

טבלת ההשוואה שלמעלה מציגה את הביצועים המרשימים של ה-Gemini AI של גוגל במגוון משימות. יש לציין כי Gemini Ultra השיגה תוצאות יוצאות דופן במדד MMLU עם דיוק של 90.04%, מה שמצביע על הבנתה המעולה בשאלות רב-ברירה ב-57 נושאים.

ב-GSM8K, שמעריך שאלות מתמטיקה בבית הספר היסודי, Gemini Ultra משיג 94.4%, מה שמציג את כישורי העיבוד האריתמטיים המתקדמים שלה. במדדי קידוד, כאשר Gemini Ultra השיגה ציון של 74.4% ביצירת הקוד של HumanEval for Python, מה שמעיד על הבנת שפת התכנות החזקה שלו.

מדד ה-DROP, שבודק את הבנת הנקרא, רואה את Gemini Ultra שוב מוביל עם ציון של 82.4%. בינתיים, במבחן הגיון בריא, HellaSwag, Gemini Ultra מתפקד בצורה יוצאת דופן, אם כי היא אינה עולה על הרף הגבוה ביותר שנקבע על ידי GPT-4.

סיכום

הארכיטקטורה הייחודית של ג'מיני, המופעלת על ידי הטכנולוגיה החדישה של גוגל, ממצבת אותה כשחקן אדיר בזירת הבינה המלאכותית, ומאתגרת את המדדים הקיימים שנקבעו על ידי דגמים כמו GPT-4. הגרסאות שלה - Ultra, Pro וננו - כל אחת עונות על צרכים ספציפיים, ממשימות חשיבה מורכבות ועד יישומים יעילים במכשיר, המציגות את המחויבות של גוגל להנגיש AI מתקדם בפלטפורמות ומכשירים שונים.

השילוב של Gemini לתוך המערכת האקולוגית של גוגל, מ-Bard ועד Google Cloud Vertex, מדגיש את הפוטנציאל שלה לשפר את חוויות המשתמש במגוון שירותים. הוא מבטיח לא רק לחדד יישומים קיימים אלא גם לפתוח אפיקים חדשים לפתרונות מונעי בינה מלאכותית, בין אם בסיוע מותאם אישית, מאמצים יצירתיים או ניתוח עסקי.

ככל שאנו מסתכלים קדימה, ההתקדמות המתמשכת במודלים של AI כמו Gemini מדגישה את החשיבות של מחקר ופיתוח מתמשכים. האתגרים של הכשרת מודלים מתוחכמים שכאלה והבטחת השימוש האתי והאחראי בהם נותרו בראש הדיון.

Ride the Hype: אירועי AI באזור המפרץ

לא לפספס

גוגל הואשמה בהטעיה באמצעות סרטון הכרזה על תאומים

עאיוש מיטל

ביליתי את חמש השנים האחרונות בשקיעת עצמי בעולם המרתק של למידת מכונה ולמידה עמוקה. התשוקה והמומחיות שלי הובילו אותי לתרום ליותר מ-50 פרויקטים מגוונים של הנדסת תוכנה, עם התמקדות מיוחדת ב-AI/ML. הסקרנות המתמשכת שלי משכה אותי גם לעבר עיבוד שפה טבעית, תחום שאני להוט לחקור עוד יותר.