בינה מלאכותית

יום השנה הראשון של ChatGPT: עיצוב מחדש של העתיד של אינטראקציה בינה מלאכותית

יצא לאור

לפני 5 חודשים

דצמבר 6, 2023

כשמשקפים את השנה הראשונה של ChatGPT, ברור שהכלי הזה שינה משמעותית את סצנת הבינה המלאכותית. ChatGPT, שהושק בסוף 2022, בלט בגלל סגנון השיחה הידידותי למשתמש שלו, שגרם לאינטראקציה עם AI להרגיש יותר כמו צ'אט עם אדם מאשר מכונה. גישה חדשה זו משכה במהירות את עיני הציבור. בתוך חמישה ימים בלבד לאחר שחרורו, ChatGPT כבר משך מיליון משתמשים. בתחילת 2023, מספר זה עלה לכ-100 מיליון משתמשים חודשיים, ועד אוקטובר, הפלטפורמה גרפה כ-1.7 מיליארד ביקורים ברחבי העולם. המספרים הללו מדברים רבות על הפופולריות והשימושיות שלו.

במהלך השנה האחרונה, משתמשים מצאו כל מיני דרכים יצירתיות להשתמש ב-ChatGPT, ממשימות פשוטות כמו כתיבת מיילים ועדכון קורות חיים ועד לפתיחת עסקים מצליחים. אבל זה לא קשור רק לאופן שבו אנשים משתמשים בו; הטכנולוגיה עצמה גדלה והשתפרה. בתחילה, ChatGPT היה שירות חינמי המציע תגובות טקסט מפורטות. כעת, יש את ChatGPT Plus, הכולל את ChatGPT-4. גרסה מעודכנת זו מאומנת על יותר נתונים, נותנת פחות תשובות שגויות ומבין טוב יותר הוראות מורכבות.

אחד העדכונים הגדולים ביותר הוא ש-ChatGPT יכול כעת לקיים אינטראקציה במספר דרכים - הוא יכול להאזין, לדבר ואפילו לעבד תמונות. זה אומר שאתה יכול לדבר איתו דרך האפליקציה לנייד שלו ולהראות לו תמונות כדי לקבל תגובות. השינויים הללו פתחו אפשרויות חדשות עבור AI ושינו את האופן שבו אנשים רואים וחושבים על תפקידה של AI בחיינו.

מההתחלה שלה כהדגמה טכנולוגית ועד למעמדה הנוכחי כשחקן מרכזי בעולם הטכנולוגיה, המסע של ChatGPT מרשים למדי. בתחילה, זה נתפס כדרך לבדוק ולשפר את הטכנולוגיה על ידי קבלת משוב מהציבור. אבל זה הפך מהר מאוד לחלק מהותי מנוף הבינה המלאכותית. הצלחה זו מראה עד כמה יעיל זה לכוונן מודלים של שפה גדולה (LLMs) עם למידה מפוקחת ומשוב מבני אדם. כתוצאה מכך, ChatGPT יכול להתמודד עם מגוון רחב של שאלות ומשימות.

המירוץ לפיתוח מערכות הבינה המלאכותית המסוגלות והרב-תכליתיות הוביל לריבוי של דגמי קוד פתוח וקנייניים כאחד כמו ChatGPT. הבנת היכולות הכלליות שלהם דורשת אמות מידה מקיפות על פני קשת רחבה של משימות. חלק זה בוחן את אמות המידה הללו, ושופך אור על האופן שבו מודלים שונים, כולל ChatGPT, עומדים זה מול זה.

הערכת לימודי תואר שני: המדדים

MT-ספסל: אמת מידה זה בודק יכולות של שיחה מרובה פניות ומעקב אחר הוראה בשמונה תחומים: כתיבה, משחק תפקידים, מיצוי מידע, חשיבה, מתמטיקה, קידוד, ידע STEM ומדעי הרוח/חברה. LLMs חזקים יותר כמו GPT-4 משמשים כמעריכים.
AlpacaEval: בהתבסס על ערכת ההערכה של AlpacaFarm, המעריך האוטומטי מבוסס LLM הזה מבסס מודלים מול תגובות של LLMs מתקדמים כמו GPT-4 וקלוד, ומחשב את שיעור הזכייה של מודלים מועמדים.
פתח את ה-LLM Leaderboard: תוך שימוש ברתום הערכת מודל השפה, Leaderboard זה מעריך LLMs על שבעה אמות מידה עיקריות, כולל אתגרי חשיבה ומבחני ידע כללי, הן בהגדרות אפס שוט והן בהגדרות של מעט ירי.
ספסל BIG: אמת מידה שיתופית זו מכסה למעלה מ-200 משימות שפה חדשות, המשתרעות על מגוון רחב של נושאים ושפות. מטרתו לחקור את ה-LLMs ולחזות את יכולותיהם העתידיות.
ChatEval: מסגרת דיון מרובת סוכנים המאפשרת לצוותים לדון באופן אוטונומי ולהעריך את איכות התגובות ממודלים שונים על שאלות פתוחות ומשימות יצירת שפה טבעית מסורתית.

ביצועים השוואתיים

במונחים של אמות מידה כלליות, LLMs בקוד פתוח הראו התקדמות מדהימה. Lama-2-70B, למשל, השיג תוצאות מרשימות, במיוחד לאחר כוונון עדין עם נתוני הוראות. הגרסה שלו, Llama-2-chat-70B, הצטיינה ב-AlpacaEval עם שיעור זכייה של 92.66%, עלתה על GPT-3.5-טורבו. עם זאת, GPT-4 נשאר המוביל עם שיעור זכייה של 95.28%.

Zephyr-7B, דגם קטן יותר, הפגין יכולות דומות ל-70B LLMs גדולים יותר, במיוחד ב-AlpacaEval ו-MT-Bench. בינתיים, WizardLM-70B, המכוונן עדין עם מגוון מגוון של נתוני הוראות, קיבל את הניקוד הגבוה ביותר מבין לימודי LLM בקוד פתוח ב-MT-Bench. עם זאת, הוא עדיין פיגר אחרי GPT-3.5-טורבו ו-GPT-4.

ערך מעניין, GodziLLa2-70B, השיג ציון תחרותי ב-Open LLM Leaderboard, המציג את הפוטנציאל של מודלים ניסיוניים המשלבים מערכי נתונים מגוונים. באופן דומה, Yi-34B, שפותח מאפס, בלט עם ציונים דומים ל-GPT-3.5-טורבו ורק מעט מאחורי GPT-4.

UltraLlama, עם כוונון עדין על נתונים מגוונים ואיכותיים, התאימה ל-GPT-3.5-טורבו במדדים המוצעים שלה ואף עלתה עליו בתחומי ידע עולמי ומקצועי.

קנה מידה: עלייתם של תקני LLM ענקיים

דגמי LLM מובילים מאז 2020

מגמה בולטת בפיתוח LLM הייתה הגדלה של פרמטרי מודל. דגמים כמו Gopher, GLaM, LaMDA, MT-NLG ו-PaLM פרצו את הגבולות, והגיעו לשיא בדגמים עם עד 540 מיליארד פרמטרים. מודלים אלה הראו יכולות יוצאות דופן, אך אופי המקור הסגור שלהם הגביל את היישום הרחב יותר שלהם. מגבלה זו עוררה עניין בפיתוח LLMs בקוד פתוח, מגמה שצוברת תאוצה.

במקביל להגדלת גדלי המודלים, חוקרים בחנו אסטרטגיות חלופיות. במקום רק להגדיל את הדגמים, הם התמקדו בשיפור ההכשרה המוקדמת של דגמים קטנים יותר. דוגמאות כוללות צ'ינצ'ילה ו-UL2, שהראו שלא תמיד יותר טוב; גם אסטרטגיות חכמות יותר יכולות להניב תוצאות יעילות. יתר על כן, הייתה תשומת לב רבה על כוונון הוראות של מודלים של שפה, כאשר פרויקטים כמו FLAN, T0 ו-Flan-T5 תורמים תרומה משמעותית לתחום זה.

ה-ChatGPT Catalyst

ההקדמה של OpenAI's ChatGPT סימן נקודת מפנה בחקר ה-NLP. כדי להתחרות ב-OpenAI, חברות כמו גוגל ואנתרופיק השיקו דגמים משלהן, בארד וקלוד, בהתאמה. בעוד שדגמים אלה מציגים ביצועים דומים ל-ChatGPT במשימות רבות, הם עדיין מפגרים מאחורי הדגם האחרון של OpenAI, GPT-4. הצלחתם של מודלים אלו מיוחסת בעיקר ללמידת חיזוק ממשוב אנושי (RLHF), טכניקה שמקבלת מיקוד מחקר מוגבר לשיפור נוסף.

שמועות וספקולציות סביב ה-Q* של OpenAI (Q-Star)

דיווחים אחרונים מציעים כי ייתכן שחוקרים ב-OpenAI השיגו התקדמות משמעותית ב-AI עם פיתוח מודל חדש בשם Q* (מבוטא Q star). לכאורה, ל-Q* יש את היכולת לבצע מתמטיקה ברמת בית הספר, הישג שעורר דיונים בקרב מומחים לגבי הפוטנציאל שלו כאבן דרך לקראת בינה כללית מלאכותית (AGI). בעוד ש-OpenAI לא הגיבה על הדיווחים הללו, יכולות השמועות של Q* יצרו התרגשות והשערות ניכרות ברשתות החברתיות ובקרב חובבי AI.

הפיתוח של Q* ראוי לציון מכיוון שדגמי שפה קיימים כמו ChatGPT ו-GPT-4, למרות שהם מסוגלים לבצע כמה משימות מתמטיות, אינם מיומנים במיוחד בטיפול בהם בצורה מהימנה. האתגר טמון בצורך של מודלים של AI לא רק לזהות דפוסים, כפי שהם עושים כיום באמצעות למידה עמוקה ושנאים, אלא גם לנמק ולהבין מושגים מופשטים. מתמטיקה, בהיותה אמת מידה להנמקה, מחייבת את הבינה המלאכותית לתכנן ולבצע מספר שלבים, תוך הדגמה של הבנה עמוקה של מושגים מופשטים. יכולת זו תסמן קפיצת מדרגה משמעותית ביכולות הבינה המלאכותית, שעלולה להרחיב מעבר למתמטיקה למשימות מורכבות אחרות.

עם זאת, מומחים מזהירים מפני קידום יתר בהתפתחות זו. בעוד שמערכת בינה מלאכותית הפותרת בעיות מתמטיקה בצורה מהימנה תהיה הישג מרשים, היא לא בהכרח מסמנת את הופעתן של בינה מלאכותית או AGI סופר אינטליגנטית. מחקר AI נוכחי, כולל מאמצים של OpenAI, התמקד בבעיות אלמנטריות, בדרגות שונות של הצלחה במשימות מורכבות יותר.

ההתקדמות הפוטנציאלית ביישומים כמו Q* היא עצומה, החל משיעורים מותאמת אישית ועד לסיוע במחקר מדעי ובהנדסה. עם זאת, חשוב גם לנהל את הציפיות ולהכיר במגבלות ובדאגות הבטיחות הקשורות להתקדמות כזו. החששות לגבי AI המהווה סיכונים קיומיים, דאגה בסיסית של OpenAI, נותרות רלוונטיות, במיוחד כאשר מערכות AI מתחילות להתממשק יותר עם העולם האמיתי.

תנועת ה-LLM בקוד פתוח

כדי להגביר את מחקר LLM בקוד פתוח, Meta פרסמה את דגמי סדרת ה-Llama, וגררה גל של פיתוחים חדשים המבוססים על לאמה. זה כולל דגמים המכוונים היטב עם נתוני הוראות, כגון Alpaca, Vicuna, Lima ו-WizardLM. המחקר מסתעף גם לשיפור יכולות הסוכנים, חשיבה לוגית ומודלים של הקשר ארוך במסגרת מבוססת הלאמה.

יתר על כן, ישנה מגמה גוברת של פיתוח LLMs רבי עוצמה מאפס, עם פרויקטים כמו MPT, Falcon, XGen, Phi, Baichuan, Mistral, גרוק, ויי. מאמצים אלה משקפים מחויבות לדמוקרטיזציה של היכולות של LLMs בקוד סגור, מה שהופך את כלי הבינה המלאכותית המתקדמים לנגישים ויעילים יותר.

ההשפעה של ChatGPT ומודלים של קוד פתוח בתחום הבריאות

אנו מסתכלים על עתיד שבו תואר ראשון מסייעים ברישום פתקים קליניים, מילוי טפסים לקבלת החזרים ותומכים ברופאים באבחון ובתכנון טיפול. זה משך את תשומת הלב הן של ענקיות הטכנולוגיה והן של מוסדות הבריאות.

של מיקרוסופט דיונים עם Epic, ספקית תוכנה מובילה לרישומי בריאות אלקטרוניים, מאותתת על השילוב של LLMs בשירותי הבריאות. יוזמות כבר קיימות ב-UC San Diego Health ובמרכז הרפואי של אוניברסיטת סטנפורד. באופן דומה, של גוגל שותפויות עם Mayo Clinic ו- Amazon Web Servicesהשקת HealthScribe, שירות תיעוד קליני בינה מלאכותית, מסמנת צעדים משמעותיים בכיוון זה.

עם זאת, פריסות מהירות אלו מעלות חששות לגבי ויתור על השליטה ברפואה לאינטרסים של החברה. האופי הקנייני של LLMs אלה מקשה על הערכתם. שינוי אפשרי או הפסקה שלהם מסיבות רווחיות עלולים לפגוע בטיפול בחולים, בפרטיות ובבטיחות.

הצורך הדחוף הוא בגישה פתוחה ומכילה לפיתוח LLM בתחום הבריאות. מוסדות בריאות, חוקרים, קלינאים ומטופלים חייבים לשתף פעולה ברחבי העולם כדי לבנות קוד פתוח LLMs עבור שירותי בריאות. גישה זו, בדומה לקונסורציום טריליון פרמטרים, תאפשר איגום של משאבים חישוביים, כספיים ומומחיות.

נושאים קשורים:GPT לאמה 2 LLM

UltraFastBERT: מודל שפה מהיר יותר באופן אקספוננציאלי

לא לפספס

xAI של אילון מאסק מחפש חיזוק מימון של מיליארדי דולרים

עאיוש מיטל

ביליתי את חמש השנים האחרונות בשקיעת עצמי בעולם המרתק של למידת מכונה ולמידה עמוקה. התשוקה והמומחיות שלי הובילו אותי לתרום ליותר מ-50 פרויקטים מגוונים של הנדסת תוכנה, עם התמקדות מיוחדת ב-AI/ML. הסקרנות המתמשכת שלי משכה אותי גם לעבר עיבוד שפה טבעית, תחום שאני להוט לחקור עוד יותר.