Connect with us

ื•ื™ืœืกื•ืŸ ืคืื ื’, ืกื•ืคืจ ืฉื•ืชืฃ ืฉืœ Real World AI – ืกื“ืจืช ืจืื™ื•ื ื•ืช

ืจืื™ื•ื ื•ืช

ื•ื™ืœืกื•ืŸ ืคืื ื’, ืกื•ืคืจ ืฉื•ืชืฃ ืฉืœ Real World AI – ืกื“ืจืช ืจืื™ื•ื ื•ืช

mm

וילסון פאנג הצטרף ל-Appen בנובמבר 2018 כסמנכ”ל טכנולוגיה ואחראי על מוצרי החברה וטכנולוגיה. וילסון הוא בעל יותר מ-19 שנות ניסיון בהנדסת תוכנה ומדע נתונים. לפני שהצטרף ל-Appen, וילסון היה הקצין הראשי לנתונים של Ctrip בסין, חברת הנסיעות המקוונות השנייה בגודלה בעולם, שם הוא הוביל צוותים של מהנדסי נתונים, אנליסטים, מנהלי מוצרי נתונים ומדענים כדי לשפר את חוויית המשתמש ולהגדיל את היעילות המבצעית שגרמה לצמיחת העסק. לפני כן, הוא היה מנהל בכיר של הנדסה ב-eBay בקליפורניה וסיפק הנהגה בתחומים שונים, כולל שירותי נתונים ופתרונות, מדע חיפוש, טכנולוגיית שיווק ומערכות חיוב. הוא עבד כאדריכל ב-IBM לפני eBay, בניית פתרונות טכנולוגיים עבור לקוחות שונים. וילסון קיבל את התואר האקדמי שלו בהנדסת חשמל מאוניברסיטת ג’ג’יאנג בסין.

אנו דנים בספרו החדש: העולם האמיתי של AI: מדריך מעשי ללמידת מכונה אחראית

אתה מתאר כיצד כאשר הובלת את צוותי מדע החיפוש של eBay, אחד מהלקחים הראשונים שלך עם למידת מכונה היה הבנת חשיבות הידיעה מהם המטריקות למדוד. הדוגמה שניתנה היא כיצד המטריקה “רכישות לפי סשן” לא לקחה בחשבון את הערך המוניטרי של פריט. כיצד חברות יכולות להבין טוב ביותר אילו מטריקות צריכות להימדד כדי להימנע מבעיות דומות?

התחל עם היעדים שצוותך מייחס למודל ה-AI – במקרה שלנו, רצינו להניע יותר הכנסות עם למידת מכונה. כאשר אתה מחבר מטריקות ליעדים, חשוב על מהם המכניקות שאותן המטריקות ייצרו, כאשר תשחרר את המודל ואנשים מתחילים ליחס עימו, אבל גם רשום את ההנחות שלך. במקרה שלנו, הנחנו שהמודל יאופטימיז עבור הכנסות, אבל מספר הרכישות לפי סשן לא תרגם את זה, מכיוון שהמודל אופטימיז עבור מספר גבוה של מכירות בערך נמוך, ובסופו של דבר לא הרוויחנו יותר כסף. כאשר הבנו את זה, הצלחנו לשנות את המטריקות ולהפנות את המודל לכיוון הנכון. לכן, קביעת המטריקות הגרנולריות, כמו גם רישום ההנחות, הן ביקורתיות להצלחת הפרויקט.

מה למדת אתה באופן אישי מחקר וכתיבת ספר זה?

יש לנו הרבה בעיות שונות שיכולות להיפתר על ידי AI מחברות שונות ותעשיות שונות. השימושים יכולים להיות שונים, הפתרון של AI עשוי להיות שונה, הנתונים לאימון הפתרון של AI עשויים להיות שונים. עם זאת, למרות כל ההבדלים האלה, הטעויות שאנשים עשו במהלך המסע של AI הן די דומות. אותן טעויות קרו שוב ושוב בכל סוג של חברות מכל סוג של תעשיות.

שיתפנו כמה תקנים נפוצים כאשר מיישמים פרויקטים של AI עם תקווה לעזור ליותר אנשים וחברות להימנע מאותן טעויות ולקבל את הביטחון לפריסת AI אחראית.

מהן הלקחים החשובים ביותר שאתה מקווה שאנשים ייקחו מקריאת ספר זה?

אנו מאמינים בתקיפות ששימושים מחשבתיים, אחראיים ואתיים בטכנולוגיית למידת מכונה יכולים להפוך את העולם למקום צודק, הוגן וכלל-יכול יותר. טכנולוגיית למידת מכונה מבטיחה לשנות הכל ברחבי העולם העסקי, אבל זה לא צריך להיות קשה. יש שיטות ותהליכים מוכחים שצוותים יכולים לעקוב אחריהם ולקבל את הביטחון לפריסה לייצור.

לקח אחר הוא שבעלי עסקים (כגון מנהלי מוצרים) וחברי צוות מצד הטכני (כגון מהנדסים ומדעני נתונים) צריכים לדבר שפה משותפת. כדי לפרוס AI בהצלחה, מנהיגים צריכים לגשר על הפער בין הצוותים, ולספק למומחים לעסקים ול-C-לוול enough קונטקסט לשוחח בצורה יעילה עם מיישמים טכניים.

הרבה אנשים חושבים תחילה על קוד כאשר הם חושבים על AI. אחד הלקחים המרכזיים בספר הוא שנתונים הם ביקורתיים להצלחת מודל AI. יש הרבה מה שקורה עם נתונים מאיסוף לתיוג לאחסון וכל צעד ישפיע על הצלחת המודל. הפריסות המוצלחות ביותר של AI הן אלו ששמות דגש גבוה על נתונים ומשתדלות לשפר את היבט זה של מודל ML.

כל AI בעולם האמיתי דורש צוות רב-תחומי ורוח חדשנית.

דנו בקביעת מתי דיוקו של מודל AI מספיק גבוה כדי לתמוך בשימוש ב-AI. מהי הדרך הקלה ביותר להעריך את סוג הדיוק הדרוש?

זה תלוי במקרי השימוש שלך ובסובלנות לסיכון. צוותים המפתחים AI צריכים תמיד להיות בשלב בדיקה שבו הם קובעים רמות דיוק וספים מקובלים עבור ארגוניהם ובעלי עניין. עבור מקרי שימוש חיים-מוות – שבהם יש סכנה אם AI ילך לאיבוד, כמו במקרה של תוכנה לגזירת עונש, מכוניות אוטונומיות, מקרים רפואיים, הרף הוא מאוד, מאוד גבוה – וצוותים צריכים להניח במקום אמצעי זהירות במקרה שהמודלים יהיו טעויות. עבור מקרי שימוש יותר סובלניים לשגיאות – שבהם יש הרבה סובייקטיביות – כמו תוכן, חיפוש או רלוונטיות של פרסומות, צוותים יכולים לסמוך על משוב משתמשים כדי להמשיך להתאים את המודלים שלהם אפילו כאשר הם בייצור. כמובן, יש כאן גם מקרי שימוש בסיכון גבוה, שבהם חומר אסור או בלתי מורלי עלול להיחשף למשתמשים, כך שאמצעי זהירות ומנגנוני משוב צריכים להיות מונחים גם כאן.

האם אתה יכול להגדיר את חשיבות הגדרת הצלחה לפרויקט מראש?

זה חשוב כמו להתחיל עם בעיה עסקית כמו להגדיר הצלחה מראש, שניהם הולכים יד ביד. לפי הדוגמה בספר על הסוכן האוטומובילי המשתמש ב-AI לתיוג תמונות, הם לא קבעו מהי הצלחה נראית, מכיוון שלא הגדירו בעיה עסקית לפתור. הצלחה עבורם יכולה להיות דברים שונים, מה שהופך אותה לקשה לפתור בעיה, אפילו עבור צוותים של אנשים, לא לדבר על מודל למידת מכונה עם טווח קבוע. אם היו יוצאים לתייג את כל הרכבים עם פגיעות כדי ליצור רשימה של רכבים שצריכים תיקון, והגדירו הצלחה כתיוג מדויק של 80% מכל הפגיעות במלאי הרכבים המשומשים, אז כאשר היו מתייגים 85% בדיוק, הצוות היה קורא לזה הצלחה. אבל אם הצלחה זו לא קשורה לבעיה העסקית, ולהשפעה העסקית הישירה, זה קשה להעריך את הפרויקט מחוץ להגדרה הממוקדת של דיוק תיוג בדוגמה זו. כאן, הבעיה העסקית הייתה מורכבת יותר, ותיוג פגיעות היה רק חלק ממנה. במקרה שלהם, היו יכולים להיות טובים יותר על ידי הגדרת הצלחה כחיסכון בזמן / כסף בתהליך התביעות או אופטימיזציה של תהליך התיקונים באחוזים X, ואז לתרגם את ההשפעה של תיוג לתוצאות עסקיות אמיתיות.

כמה חשוב לוודא שדוגמאות האימון כוסו את כל מקרי השימוש שיקרו בפריסה לייצור?

זה חשוב מאוד שהמודל יאומן על כל מקרי השימוש כדי להימנע מהטיה. אבל זה גם חשוב לשים לב שזה בלתי אפשרי לכסות את כל מקרי השימוש בייצור, צוותים הבונים AI צריכים להבין את נתוני הייצור שלהם, כמו גם את נתוני האימון, כך שהם יאמנו את AI עבור מה שהוא יפגוש בייצור. גישה לנתוני אימון המגיעים מקבוצות גדולות ומגוונות עם מקרי שימוש שונים תהיה קריטית להצלחת המודל. לדוגמה, מודל שמאומן לזהות חיות מחמד בתמונה שהועלתה צריך להיות מאומן על כל סוגי החיות; כלבים, חתולים, ציפורים, יונקים קטנים, זוחלים וכו’. אם המודל מאומן רק על כלבים, חתולים וציפורים, אז כאשר מישהו מעלה תמונה עם חולדתו, המודל לא יוכל לזהות אותה. בעוד שזוהי דוגמה פשוטה, היא מראה כיצד אימון על כמה שיותר מקרי שימוש מהימנים הוא קריטי להצלחת המודל.

דנו בספר על הצורך לפתח הרגלים טובים של היגיינת נתונים מלמעלה, מהם הצעדים הראשונים הנפוצים לגידול הרגל זה?

הרגלים טובים של היגיינת נתונים יגדילו את השימושיות של נתונים פנימיים ויכינו אותם לשימושים של ML. כל החברה צריכה להיות טובה בארגון ומעקב אחר מאגרי הנתונים שלה. דרך אחת בטוחה להשגת זאת היא להפוך אותה לדרישת עסק ולעקוב אחרי מימוש כך שיהיו מעט דוחות שיהיו עבודות מותאמות, וצוותים יעבדו יותר ויותר עם צינורות נתונים המוזרמים למאגר מרכזי, עם אונטולוגיה ברורה. עוד תקנים טובים הם לשמור רישום של מתי והיכן הנתונים נאספו ומה קרה להם לפני שהוכנסו למסד הנתונים, כמו גם להקים תהליכים לניקוי נתונים לא בשימוש או נתונים מיושנים באופן תקופתי.

תודה על הראיון הגדול, לקוראים שמעוניינים ללמוד יותר, אני ממליץ להם לקרוא את הספר העולם האמיתי של AI: מדריך מעשי ללמידת מכונה אחראית.

ืื ื˜ื•ืืŸ ื”ื•ื ืžื ื”ื™ื’ ื—ื–ื•ื ื™ ื•ืฉื•ืชืฃ ืžื™ื™ืกื“ ืฉืœ Unite.AI, ื”ืžื•ื ืข ืขืœ ื™ื“ื™ ืชืฉื•ืงื” ื‘ืœืชื™ ืžืขื•ืจืขืจืช ืœืขืฆื‘ ื•ืœืงื“ื ืืช ืขืชื™ื“ ื”-AI ื•ื”ืจื•ื‘ื•ื˜ื™ืงื”. ื™ื–ื ืกื“ืจืชื™, ื”ื•ื ืžืืžื™ืŸ ืฉ-AI ื™ื”ื™ื” ืžืฉื‘ืฉ ื›ืžื• ื—ืฉืžืœ ืœื—ื‘ืจื”, ื•ืœืขื™ืชื™ื ืงืจื•ื‘ื•ืช ื ืชืคืก ื›ืžื™ ืฉืžื“ื‘ืจ ื‘ื”ืชืœื”ื‘ื•ืช ืขืœ ื”ืคื•ื˜ื ืฆื™ืืœ ืฉืœ ื˜ื›ื ื•ืœื•ื’ื™ื•ืช ืžืฉื‘ืฉื•ืช ื•-AGI. ื›-ืคื•ื˜ื•ืจื™ืกื˜, ื”ื•ื ืžื•ืงื“ืฉ ืœื—ืงืจ ื”ืื•ืคืŸ ืฉื‘ื• ื—ื™ื“ื•ืฉื™ื ืืœื” ื™ืขืฆื‘ื• ืืช ืขื•ืœืžื ื•. ื‘ื ื•ืกืฃ, ื”ื•ื ื”ืžื™ื™ืกื“ ืฉืœ Securities.io, ืคืœื˜ืคื•ืจืžื” ื”ืžืชืžืงื“ืช ื‘ื”ืฉืงืขื” ื‘ื˜ื›ื ื•ืœื•ื’ื™ื•ืช ื—ื“ืฉื ื™ื•ืช ืฉืžื’ื“ื™ืจื•ืช ืžื—ื“ืฉ ืืช ื”ืขืชื™ื“ ื•ืžืฉื ื•ืช ืืช ื›ืœ ื”ืžื’ื–ืจื™ื.