ראיונות
רבקה צ'יאן, מייסדת שותפה ומנהלת טכנולוגיות ראשית של Patronus AI – סדרת ראיונות

רבקה צ'יאן היא המייסדת השותפה ומנהלת הטכנולוגיה הראשית של Patronus AI, עם כמעט עשור של ניסיון בבניית מערכות למידת מכונה לייצור בצומת שבין NLP, בינה מלאכותית מגולמת ותשתיות. ב-Facebook AI, היא עבדה במחקר ופריסה, הכשרת FairBERTa, מודל שפה גדול שתוכנן עם יעדי הוגנות, פיתוח מודל הפרעות דמוגרפיות לשכתוב תוכן ויקיפדיה, והובלת ניתוח סמנטי עבור עוזרים רובוטיים. היא גם בנתה צינורות אנושיים בלולאה עבור סוכנים מגולמים ויצרה כלי תשתית כגון Continuous Contrast Set Mining, שאומץ על ידי צוותי התשתית של פייסבוק והוצג ב-ICSE. היא תרמה לפרויקטים בקוד פתוח, כולל FacebookResearch/fairo ומחברות הניתוח הסמנטי Droidlet. כמייסדת, היא מתמקדת כעת בפיקוח גמיש, למידה מחוזקת ופריסת סוכני בינה מלאכותית בטוחים ומודעים לסביבה.
בינה מלאכותית של פטרונוס היא חברה שבסיסה בסן פרנסיסקו המספקת פלטפורמה מונחית מחקר להערכה, ניטור ואופטימיזציה של מודלים לשפה גדולה (LLMs) וסוכני בינה מלאכותית כדי לסייע למפתחים לשלוח מוצרי בינה מלאכותית גנרטיביים אמינים בביטחון. הפלטפורמה מציעה כלי הערכה אוטומטיים, מדדי ביצועים, ניתוחים, מערכי נתונים מותאמים אישית וסביבות ספציפיות לסוכנים המזהות בעיות ביצועים כגון הזיות, סיכוני אבטחה או כשלים לוגיים, ומאפשרת לצוותים לשפר ולפתור בעיות באופן מתמיד במערכות בינה מלאכותית במקרי שימוש בעולם האמיתי. Patronus משרתת לקוחות ארגוניים ושותפי טכנולוגיה על ידי העצמתם לדרג התנהגות מודל, לזהות שגיאות בקנה מידה גדול ולשפר את האמינות והביצועים ביישומי בינה מלאכותית לייצור.
יש לך ניסיון מעמיק בבניית מערכות למידת מכונה (ML) בפייסבוק, כולל עבודה על FairBERTa ו-human-in-the-loop pipelines. כיצד עיצבה החוויה הזו את נקודת המבט שלך על פריסה ובטיחות של בינה מלאכותית בעולם האמיתי?
העבודה ב-Meta AI גרמה לי להתמקד במה שנדרש כדי להפוך מודלים לאמינים בפועל - במיוחד סביב NLP אחראי. עבדתי על מידול שפה ממוקד הוגנות כמו הכשרת תואר שני במשפטים עם יעדי הוגנות, וראיתי ממקור ראשון כמה קשה להעריך ולפרש את תוצאות המודל. זה עיצב את האופן שבו אני חושב על בטיחות. אם אי אפשר למדוד ולהבין את התנהגות המודל, קשה לפרוס בינה מלאכותית בביטחון בעולם האמיתי.
מה הניע אותך לעבור מהנדסת מחקר ליזמות, היית שותף להקמת Patronus AI, ואיזו בעיה הרגישה לך הכי דחופה לפתרון באותה תקופה?
הערכה הפכה למכשול בבינה מלאכותית באותה תקופה. עזבתי את מטה בינה מלאכותית באפריל כדי להקים את פטרונוס עם אנאנד, כי ראיתי ממקור ראשון כמה קשה להעריך ולפרש את פלט הבינה המלאכותית. וברגע שבינה מלאכותית גנרטורה החלה להיכנס לזרימות עבודה ארגוניות, היה ברור שזו כבר לא רק בעיה במעבדה.
המשכנו לשמוע את אותו הדבר מארגונים. הם רצו לאמץ תוכניות לימודים למשפטים, אבל הם לא יכלו לבדוק אותן בצורה אמינה, לנטר אותן או להבין מצבי כשל כמו הזיות, במיוחד בתעשיות מוסדרות שבהן יש סובלנות נמוכה מאוד לטעויות.
אז הבעיה הדחופה, בהתחלה, הייתה לבנות דרך לאוטומציה ולהרחבת הערכת מודלים - ניקוד מודלים בתרחישים אמיתיים, יצירת מקרי בדיקה יריבים והשוואת ביצועים - כך שצוותים יוכלו לפרוס בביטחון במקום לנחש.
פטרונוס הציגה לאחרונה סימולטורים גנרטיביים כסביבות אדפטיביות עבור סוכני בינה מלאכותית. אילו מגבלות בגישות ההערכה או ההדרכה הקיימות הובילו אתכם לכיוון זה?
המשכנו לראות פער הולך וגובר בין האופן שבו סוכני בינה מלאכותית מוערכים לבין האופן שבו מצופה מהם לתפקד בעולם האמיתי. מדדי ביצוע מסורתיים מודדים יכולות מבודדות בנקודת זמן קבועה, אך עבודה אמיתית היא דינמית. משימות נקטעות, דרישות משתנות באמצע הביצוע, והחלטות מורכבות לאורך זמן. סוכנים יכולים להיראות חזקים בבדיקות סטטיות ועדיין להיכשל קשות לאחר פריסתם. ככל שהסוכנים משתפרים, הם גם ממלאים מדדי ביצוע קבועים, מה שגורם ללמידה להגיע למצב של יישור. סימולטורים גנרטיביים צצו כדרך להחליף בדיקות סטטיות בסביבות חיים שמסתגלות ככל שהסוכן לומד.
כיצד אתה רואה סימולטורים גנרטיביים משנים את האופן שבו סוכני בינה מלאכותית מאומנים ומוערכים בהשוואה למדדי ביצועים סטטיים או מערכי נתונים קבועים?
השינוי הוא שבדיקות ביצועים מפסיקות להיות מבחנים ומתחילות להפוך לסביבות עבודה. במקום להציג סט קבוע של שאלות, הסימולטור מייצר את המטלה, את התנאים הסובבים ואת לוגיקת ההערכה תוך כדי תנועה. ככל שהסוכן מתנהג ומשתפר, הסביבה מסתגלת. זה קורס את הגבול המסורתי בין אימון להערכה. אתם כבר לא שואלים האם סוכן עובר בדיקת ביצועים, אלא האם הוא יכול לפעול בצורה אמינה לאורך זמן במערכת דינמית.
מנקודת מבט טכנית, מהם הרעיונות הארכיטקטוניים המרכזיים העומדים מאחורי סימולטורים גנרטיביים, במיוחד סביב יצירת משימות, דינמיקת סביבה ומבני תגמול?
ברמה גבוהה, סימולטורים גנרטיביים משלבים למידה מבוססת חיזוקים עם יצירת סביבה אדפטיבית. הסימולטור יכול ליצור משימות חדשות, לעדכן את חוקי העולם באופן דינמי ולהעריך את פעולותיו של סוכן בזמן אמת. מרכיב מפתח הוא מה שאנו מכנים "מתאם תוכנית לימודים", אשר מנתח את התנהגות הסוכן ומשנה את רמת הקושי והמבנה של תרחישים כדי לשמור על הלמידה פרודוקטיבית. מבני תגמול נועדו להיות ניתנים לאימות וספציפיים לתחום, כך שסוכנים מונחים להתנהגות נכונה ולא לקיצורי דרך שטחיים.
ככל שתחום הערכת הבינה המלאכותית וכלי פיתוח הסוכנים הופך צפוף יותר, מה מבדיל באופן הברור ביותר את הגישה של פטרונוס?
אנו מתמקדים בתוקף אקולוגי. אנו מתכננים סביבות המשקפות זרימות עבודה אנושיות אמיתיות, כולל הפרעות, החלפות הקשר, שימוש בכלים וחשיבה רב-שלבית. במקום לייעל סוכנים כדי שיראו טוב בבדיקות מוגדרות מראש, אנו מתמקדים בחשיפת סוגי הכשלים החשובים בייצור. הסימולטור מעריך התנהגות לאורך זמן, לא רק פלטים בנפרד.
אילו סוגי משימות או מצבי כשל מרוויחים הכי הרבה מהערכה מבוססת סימולטור בהשוואה לבדיקות קונבנציונליות?
משימות ארוכות טווח ורב-שלביות מרוויחות הכי הרבה. אפילו שיעורי שגיאות קטנים בכל שלב יכולים להצטבר לשיעורי כשל גדולים במשימות מורכבות, שמדדי ביצועים סטטיים אינם מצליחים ללכוד. הערכה מבוססת סימולטור מאפשרת לחשוף כשלים הקשורים לשמירה על מסלול לאורך זמן, טיפול בהפרעות, תיאום השימוש בכלים והתאמה כאשר התנאים משתנים באמצע המשימה.
כיצד למידה מבוססת סביבה משנה את האופן שבו אתם חושבים על בטיחות בינה מלאכותית, והאם סימולטורים גנרטיביים מציגים סיכונים חדשים כמו פריצת תגמולים או מצבי כשל מתפתחים?
למידה מבוססת סביבה למעשה מקלה על גילוי בעיות בטיחות רבות. "פריצת תגמולים" נוטה לשגשג בסביבות סטטיות שבהן סוכנים יכולים לנצל פרצות קבועות. בסימולטורים גנרטיביים, הסביבה עצמה היא מטרה נעה, מה שמקשה על קיצורי הדרך הללו. עם זאת, עדיין נדרש תכנון קפדני סביב תגמולים ופיקוח. היתרון של סביבות הוא שהן נותנות לך הרבה יותר שליטה ונראות על התנהגות הסוכנים מאשר מדדי ביצועים סטטיים אי פעם יכלו.
במבט לחמש שנים קדימה, היכן אתה רואה את Patronus AI הן מבחינת שאיפות טכניות והן מבחינת השפעה בתעשייה?
אנו מאמינים שסביבות עבודה הופכות לתשתית בסיסית עבור בינה מלאכותית. ככל שסוכנים עוברים ממענה על שאלות לעבודה אמיתית, הסביבות בהן הם לומדים יעצבו את מידת היכולת והאמינות שלהם. השאיפה ארוכת הטווח שלנו היא להפוך זרימות עבודה בעולם האמיתי לסביבות מובנות שמהן סוכנים יכולים ללמוד באופן רציף. ההפרדה המסורתית בין הערכה להדרכה קורסת, ואנו חושבים שהשינוי הזה יגדיר את הגל הבא של מערכות בינה מלאכותית.
תודה על הראיון הנהדר, קוראים שרוצים ללמוד עוד צריכים לבקר בינה מלאכותית של פטרונוס.












