ืื ืืืื ืืขื
ืื ืชืื ืืงืจืืื ืืืืืืืฆืื ืฉื ืคืืชืื ืืืืืื

היעד החשוב הבא למחקר AI הוא לאוטומט את פיתוח המודל. כל התקדמות בתחומי ההיגיון, השפה והתפישה היא, במובן מסוים, צעד לקראת מטרה זו. עם זאת, הדרך לאוטומציה של מודלים דורשת פתרון סדרה של אתגרים יסודיים שחייבים להיפתר קודם.
הגשר ליעד זה עובר ישירות דרך הנדסת ML. מוטעה נפוץ גורס כי ML הוא טכנולוגיה קודמת ל-AI המודרני וכי מודלים יסודיים החליפו אותה. זה מחטיא את היחס. כדיסציפלינה אקדמית, ML כולל את כל היבטי אימון המודל, כולל אימון מודלים יסודיים במרכז הרגע הנוכחי של AI. יש, עם זאת, הבדל משמעותי בקנה מידה ובסיבוכיות הנתונים.
מודלי ML מסורתיים מאומנים בדרך כלל על סטים של נתונים מסודרים וספציפיים לתחום, המכילים אלפים או מיליוני דוגמאות. מודלים יסודיים, לעומת זאת, מאומנים על אלפי סטים של נתונים בו-זמנית, הלקוחים ממקורות שונים עם פורמטים, פרובננס ואיכות לא עקביים. הבדל זה בקנה מידה ובהטרוגניות של הנתונים הוא סיבה יסודית מדוע ניהול נתונים הופך להיות הרבה יותר קשה וחשוב ככל שהמודלים גדלים בעוצמה.
זה הופך את הבנת הנתונים לבקפרות מרכזית באוטומציה של פיתוח מודל. מערכת AI שיכולה לפרש נתונים הטרוגניים ולשפר את הצינורות שנבנו סביבה יכולה, בעיקרון, לשפר את תהליך האימון שלה ולעזור לבנות מודלים טובים יותר. כאשר AI יכולה לשפר את התהליך שבו היא מאומנת, השיפורים מתרחשים בכל תחום שבו AI מיושמת.
שלושה מחסומים העומדים בדרך
המחסום הראשון הוא פירוק ההקשר. בכמעט כל ארגון, האותות, הניסויים, הגדרות התכונות והידע המוסדי הרלוונטיים לכל בעיה של מודלים מפוזרים במחסני נתונים, מחברות וצינורות שלא תוכננו לתקשר זה עם זה. ניתן לשקול מערכת בריאות הבונה מודל לזיהוי ספסיס. הקריטריונים הקליניים הרלוונטיים לבעיה זו, כגון ספים חיוניים, ערכים מעבדה וסטנדרטים תיעוד, עשויים להתקיים במודולים נפרדים של מערכת רשומות בריאות אלקטרונית.
המחסום השני הוא אי-בהירות סמנטית. המשמעות אינה טבועה בנתונים אלא היא הקשרית וארגונית. שם שדה זהה בשני בסיסי נתונים שונים עשוי להתייחס לדברים שונים. מושגים כגון הכנסה, משתמש פעיל, ונטישה רגילים להיות בעלי הגדרות תקפות מרובות בתוך חברה אחת. אפילו מושג כפשוט כמו “הכנסה” יכול לגרום לבעיות. צוות מכירות עשוי להגדיר הכנסה כערך הכולל של חוזים שנחתמו ברבעון זה, בעוד שצוות הפיננסים מגדיר אותה ככסף שאכן נקבל. צוות המוצרים הוא בעל הבנה אחרת, שכן הוא מגדיר את המונח לפי הכנסה המוכרת לאורך תקופת המנוי. כולם שואבים משדות הממוספרים “הכנסה” במערכותיהם, אך דו”ח חוצה-צוותים המשלב אותם יערבב שלושה מספרים לא תואמים בשתיקה.
המחסום השלישי והשיטתי ביותר הוא היעדרה של זיכרון מוסדי מתועד. עקיבה אחר פרובננס, פתרון עקביות ושמירה על איכוסים לאורך מקורות רבים הוא בעיה שלא נפתרה אפילו עבור צוותים אנושיים. ללא זיכרון מוסדי של מה שנוסה וכיצד התקרבו הגישות האלה, כל מנגנון אוטומציה של מודל לא יוכל לבנות על ניסיון מצטבר. הוא ימשיך לגלות מחדש את אותם סוף דרכים מתים, בזבז זמן ומשאבים.
ניתן לשקול צוות מדע נתונים בחברת קמעונאות הבונה מודל לתחזית ביקוש. במשך שלוש שנים, עשרה אנליסטים גילו באופן עצמאי כי נתוני מזג אוויר גולמיים מדרדרים את ביצועי המודל במהלך שבועות חג, כי זרם המלאי של ספק מסוים מכיל עיכוב סיסטמטי, וכי הגישה הסטנדרטית לטיפול באירועים פרומוציה גורמת לדליפת מטרה. כאשר האנליסטים המקוריים עברו לצוותים אחרים או עזבו את החברה, הידע עזב איתם. ללא רישום מוסדי של מה שנוסה, מה נכשל ולמה, מנגנון אוטומציה של מודל לא יוכל לבנות על ניסיון מצטבר. הוא יתחיל מאפס, שוב ושוב, בזבז זמן באופן מיותר.
מהו פתרון אמיתי
ההיסטוריה של אוטומציה של ML היא היסטוריה של פתרונות חלקיים. AutoML טיפלה בבעיה הצרה של כיול היפר-פרמטרים אך לא יכלה לטפל בחוסר התאמה של מטרות או לנמק על כוונות ארגוניות. MLOps הפך את צינורות הייצור לחזקים וקלים יותר לפיקוח, אך כלים MLOps מבצעים אסטרטגיה ולא מגדירים אותה. סוכני קידוד אחרונים מייצגים צעד קדימה אמיתי, אך הם ירשו את אותו נקודת עיוור. הם יוצרים קוד היטב בעודם פועלים ללא הקשר ארגוני או זיכרון מוסדי.
מערכת המסוגלת להנדסת ML אוטונומית אמיתית תצטרך יכולות שאף כלי קיים לא מספק בשילוב. היא תצטרך למפות מטרות עסקיות למטרות מודל, שהיא תרגום שאינו יכול להתבצע מנתונים בלבד. היא תצטרך לגלות נתונים רלוונטיים ברחבי מערכות מפוצלות עם סכמות לא עקביות, בעודה מתאימה באופן אוטומטי למגבלות תאימות, ממשל וביטחון, ולא דורשת מבני אדם לנהל אותם כתהליך נפרד. היא תצטרך זיכרון מוסדי כדי להציג עבודה קיימת, להבין למה ניסויים קודמים ננטשו, ולבנות על מה שעמיתים כבר יודעים.
איתורים נאמנים של שינויים שיעקבו אחר פרובננס ברחבי גרסאות נתונים, הגדרות תכונות והתחייבויות קוד יצטרכו להיות מנגנון ליבה להצמדת המערכת למה שקרה באמת. וכל מערכת כזו תצטרך תכנון אנושי-ב-לופ אינטראקטיבי. לא בחירה בינארית בין אוטומציה מלאה לבין בקרה ידנית מלאה, אלא תמיכה ברמות שונות של אינטראקציה, בהתאם למשימה, ליתרונות ולביטחון המערכת בכל נקודת החלטה. אוטומציה המדלגת על שיפוט אנושי ברגעים קריטיים אינה תכונה של AI מעוצב היטב; היא מצב כושל.
מה שאף מעבדה לא פתרה עדיין הוא כיצד ליצור הבנה סמנטית של נתונים ארגוניים שמבינה מה משמעות הנתונים בהקשר מוסדי ספציפי. MCP פותרת את בעיית החיבור. היא עדיין לא פותרת את בעיית המשמעות. זה עדיין חזית מחקר פתוחה.
מהו האפשרי
המשמעויות הכלכליות של פתרון בעיות אלו הן משמעותיות. פיתוח ML מותאם אישית כיום דורש מומחים ושבועות של איטרציה, אפילו עבור בעיות מוגדרות היטב. מערכת שיכולה לנווט את כל הזרימה באופן אוטונומי מהגדרת בעיה דרך גילוי נתונים, פיתוח מודל והערכת מודל תשנה את המשוואה הזו באופן דרמטי, תדחוס זמנים ותפתח מקרי שימוש בערך גבוה שכיום הם יקרים מדי לרדוף.
בעיות הקשורות לפירוק הקשר, אי-בהירות סמנטית וזיכרון מוסדי החסר אינן ייחודיות ל-ML ארגוני. הן מופיעות תחת הגבלות שונות בבניית צינורות אימון מודלים יסודיים, שבהם אלפי סטים הטרוגניים של נתונים חייבים להיאגד, להיסנן ולהישפר באופן איטרטיבי. בעוד שהסביבות הללו נבדלות במבנה ובמטרה, שתיהן מוגבלות על ידי אותה בקפרות תת-מודעת: היעדר מערכות שיכולות לשחזר הקשר, לעקוב אחר פרובננס ולבנות על עבודה קודמת ברחבי איטרציות. אוטומציה של פיתוח מודל בארגון היא לכן צעד קריטי בדרך למערכות AI המסוגלות לשפר את עצמן.













