בדל מסירי ל-ReALM: המסע של אפל אל עוזרי קול חכמים יותר - Unite.AI
צור קשר

בינה מלאכותית

מסירי ל-ReALM: המסע של אפל אל עוזרי קול חכמים יותר

mm

יצא לאור

 on

מאז ההשקה של Siri ב-2011, אפל הייתה בעקביות בחזית החדשנות של העוזרת הקולית, תוך התאמה לצרכי המשתמשים העולמיים. ההקדמה של ReALM מסמנת נקודה משמעותית במסע הזה, ומציעה הצצה לתפקיד המתפתח של העוזרות הקוליות באינטראקציה שלנו עם המכשירים. מאמר זה בוחן את ההשפעות של ReALM על Siri ואת הכיוונים הפוטנציאליים עבור עוזרי קול עתידיים.

עלייתם של עוזרי קול: בראשית של סירי

המסע החל כאשר אפל שילבה את Siri, מערכת בינה מלאכותית מתוחכמת, במכשיריה, ושינתה את האופן שבו אנו מתקשרים עם הטכנולוגיה שלנו. מקורו בטכנולוגיה שפותחה על ידי SRI אינטרנשיונל, סירי הפכה לתקן הזהב עבור עוזרים מופעלי קול. משתמשים יכולים לבצע משימות כמו חיפושים באינטרנט ותזמון באמצעות פקודות קוליות פשוטות, לדחוף את הגבולות של ממשקי שיחה ולהצית מרוץ תחרותי בשוק העוזרות הקוליות.

Siri 2.0: עידן חדש של עוזרי קול

בעוד אפל מתכוננת לשחרור של iOS 18 ב כנס מפתחים ברחבי העולם (WWDC) ביוני 2024, נבנית ציפייה בתוך קהילת הטכנולוגיה למה שצפוי להיות התפתחות משמעותית של Siri. שלב חדש זה, המכונה סדרה 2.0, מבטיחה להביא את התקדמות הבינה המלאכותית הגנרטיבית לקדמת הבמה, מה שעשוי להפוך את Siri לעוזרת וירטואלית מתוחכמת עוד יותר. בעוד שהשיפורים המדויקים נשארים חסויים, עולם הטכנולוגיה מוצף מהסיכוי ש-Siri תשיג גבהים חדשים באינטליגנציה של שיחה ואינטראקציה אישית עם משתמשים, תוך מינוף המודלים המתוחכמים של לימוד שפות הנראים בטכנולוגיות כמו ChatGPT. בהקשר זה, הצגת ReALM, מודל שפה קומפקטי, מציעה שיפורים אפשריים ש-Siri 2.0 עשויה להציג עבור המשתמשים שלה. הסעיפים הבאים ידונו בתפקידה של ReALM והשפעתה הפוטנציאלית כצעד חשוב בקידום המתמשך של Siri.

חושפים את ReALM

ReALM, ראשי תיבות של Reference Resolution As Language Modeling, היא מודל שפה מיוחד המיומן בפענוח הפניות הקשריות ומעורפלות במהלך שיחות, כגון "ההוא" או "זה". זה בולט ביכולתו לעבד הפניות שיחה וויזואליות, ולהפוך אותן לפורמט טקסט. יכולת זו מאפשרת ל-ReALM לפרש ולקיים אינטראקציה עם פריסות מסך ואלמנטים בצורה חלקה בתוך דיאלוג, תכונה קריטית לטיפול מדויק בשאילתות בהקשרים תלויים ויזואלית.

הארכיטקטורה של ReALM נעה בין גרסאות קטנות יותר כמו ReALM-80M לגרסאות גדולות יותר כגון ReALM-3B, מותאמות להיות יעילות מבחינה חישובית לשילוב במכשירים ניידים. יעילות זו מאפשרת ביצועים עקביים עם שימוש מופחת בחשמל ופחות עומס על משאבי העיבוד, חשוב להארכת חיי הסוללה ולמתן זמני תגובה מהירים במגוון מכשירים.

יתר על כן, העיצוב של ReALM מתאים לעדכונים מודולריים, ומאפשרים שילוב חלק של ההתקדמות העדכנית ביותר ברזולוציית התייחסות. גישה מודולרית זו לא רק משפרת את יכולת ההסתגלות והגמישות של הדגם, אלא גם מבטיחה את הכדאיות והיעילות שלו לטווח ארוך, ומאפשרת לו לענות על צורכי המשתמשים המתפתחים ותקני הטכנולוגיה על פני קשת רחבה של מכשירים.

ReALM לעומת מודלים של שפה

בעוד שדגמי שפה מסורתיים אוהבים GPT-3.5 בעיקר עיבוד טקסט, ReALM נוקטת במסלול מולטי-מודאלי, בדומה למודלים כגון Gemini, על ידי עבודה עם טקסט ווויזואליה כאחד. בניגוד לפונקציות הרחבות יותר של GPT-3.5 ו מזל תאומים, המטפלים במשימות כמו יצירת טקסט, הבנה ויצירת תמונה, ReALM מכוונת במיוחד לפענוח הקשרים שיחיים וחזותיים. עם זאת, בניגוד למודלים מולטי-מודאליים כמו Gemini שמעבדים ישירות נתונים ויזואליים וטקסטים, ReALM מתרגמת תוכן חזותי של מסכים לטקסט, ישויות הערות והפרטים המרחביים שלהם. המרה זו מאפשרת ל-ReALM לפרש את תוכן המסך בצורה טקסטואלית, מה שמקל על זיהוי והבנה מדויקים יותר של הפניות על המסך.

איך ReALM יכולה לשנות את Siri?

ReALM יכולה לשפר משמעותית את היכולות של Siri, ולהפוך אותה לעוזר אינטואיטיבי ומודע יותר להקשר. הנה איך זה עשוי להשפיע:

  • הבנה קונטקסטואלית טובה יותר: ReALM מתמחה בפענוח הפניות מעורפלות בשיחות, מה שעשוי לשפר מאוד את היכולת של סירי להבין שאילתות תלויות הקשר. זה יאפשר למשתמשים ליצור אינטראקציה עם סירי בצורה טבעית יותר, מכיוון שהיא יכולה לתפוס הפניות כמו "לשחק שוב את השיר הזה" או "להתקשר אליה" ללא פרטים נוספים.
  • אינטראקציית מסך משופרת: עם מיומנותה בפירוש פריסות מסך ואלמנטים בתוך דיאלוגים, ReALM יכולה לאפשר ל-Siri להשתלב בצורה זורמת יותר עם התוכן החזותי של המכשיר. לאחר מכן, סירי תוכל לבצע פקודות הקשורות לפריטים על המסך, כגון "פתח את האפליקציה ליד דואר" או "גלול למטה בדף זה", והרחיב את השירות שלה במשימות שונות.
  • התאמה אישית: על ידי למידה מאינטראקציות קודמות, ReALM יכולה לשפר את היכולת של Siri להציע תגובות מותאמות אישית והסתגלות. עם הזמן, סירי עשויה לחזות את צרכי המשתמש והעדפותיו, להציע או ליזום פעולות על סמך התנהגות עבר והבנה הקשרית, בדומה לעוזר אישי בעל ידע.
  • נגישות משופרת: יכולות הבנת ההקשר וההתייחסות של ReALM עשויות להועיל באופן משמעותי לנגישות, ולהפוך את הטכנולוגיה למכילה יותר. Siri, המופעלת על ידי ReALM, יכולה לפרש פקודות מעורפלות או חלקיות במדויק, ולאפשר שימוש קל וטבעי יותר במכשיר לאנשים עם לקות פיזית או ראייה.

אסטרטגיית ה-AI של ReALM ואפל

ההשקה של ReALM משקפת היבט מרכזי באסטרטגיית הבינה המלאכותית של אפל, תוך שימת דגש על אינטליגנציה במכשיר. פיתוח זה מתיישב עם מגמת התעשייה הרחבה יותר של מחשוב קצה, שבו הנתונים מעובדים באופן מקומי במכשירים, תוך הפחתת זמן ההשהיה, שמירה על רוחב פס ואבטחת נתוני המשתמש במכשיר עצמו.

פרויקט ReALM מציג גם את יעדי הבינה המלאכותית של אפל, תוך התמקדות לא רק בביצוע פקודות אלא גם בהבנה מעמיקה יותר ובניבוי צרכי המשתמש. ReALM מייצג צעד לקראת חידושים עתידיים שבהם מכשירים יכולים לספק תמיכה מותאמת אישית וחזויה יותר, מיודעת על ידי הבנה מעמיקה של הרגלי המשתמש והעדפותיו.

בשורה התחתונה

הפיתוח של אפל מ-Siri ל-ReALM מדגיש התפתחות מתמשכת בטכנולוגיית העוזר הקולי, תוך התמקדות בשיפור הבנת הקשר ואינטראקציה עם המשתמש. ReALM מסמל מעבר לעבר סיוע קולי אינטליגנטי, מותאם אישית ומודע לפרטיות, תוך התאמה לטרנד התעשייה של מחשוב קצה לעיבוד ואבטחה משופרים במכשיר.

ד"ר Tehseen Zia היא פרופסור חבר קבוע באוניברסיטת COMSATS איסלמבאד, בעלת תואר דוקטור בבינה מלאכותית מאוניברסיטת וינה לטכנולוגיה, אוסטריה. מתמחה בבינה מלאכותית, למידת מכונה, מדעי נתונים וראיית מחשב, הוא תרם תרומה משמעותית עם פרסומים בכתבי עת מדעיים נחשבים. ד"ר Tehseen גם הוביל פרויקטים תעשייתיים שונים בתור החוקר הראשי ושימש כיועץ בינה מלאכותית.