בינה מלאכותית

מדעני מחשב מתמודדים עם הטיה בבינה מלאכותית

מְעוּדכָּן on דצמבר 9, 2022

מדעני מחשבים מפרינסטון ואוניברסיטת סטנפורד נמצאים כעת טיפול בבעיות של הטיה בבינה מלאכותית (AI). הם עובדים על שיטות שמביאות למערכות נתונים הוגנים יותר המכילים תמונות של אנשים. החוקרים עובדים בשיתוף פעולה הדוק עם ImageNet, שהוא מסד נתונים של יותר מ-13 מיליון תמונות. במהלך העשור האחרון, אימג'נט סייעה לקדם את הראייה הממוחשבת. עם השימוש בשיטות שלהם, המליצו החוקרים על שיפורים למסד הנתונים.

אימג'נט כולל תמונות של חפצים, נופים ואנשים. חוקרים שיוצרים אלגוריתמים של למידת מכונה המסווגים תמונות משתמשים ב-ImageNet כמקור נתונים. בגלל הגודל העצום של מסד הנתונים, היה צורך שיהיה איסוף תמונות אוטומטי והערות תמונות במקור המונים. כעת, צוות ImageNet פועל לתיקון הטיות ובעיות אחרות. התמונות מכילות לעתים קרובות אנשים שהם השלכות לא מכוונות של הבנייה של ImageNet.

אולגה רוסקובסקי היא שותפה לכותבת ועוזרת פרופסור למדעי המחשב בפרינסטון.

"ראיית מחשב עובדת עכשיו ממש טוב, מה שאומר שהיא נפרסת בכל מקום בכל מיני הקשרים", אמר. "זה אומר שעכשיו זה הזמן לדבר על איזה סוג של השפעה יש לזה על העולם ולחשוב על סוגי הוגנות מסוג זה."

במאמר החדש, צוות ImageNet זיהה באופן שיטתי מושגים לא ויזואליים וקטגוריות פוגעניות. קטגוריות אלו כללו אפיונים גזעיים ומיניים, והצוות הציע להסיר אותם מהמאגר. הצוות גם פיתח כלי המאפשר למשתמשים לציין ולאחזר סטים של תמונות של אנשים, והוא יכול לעשות זאת לפי גיל, הבעה מגדרית וצבע עור. המטרה היא ליצור אלגוריתמים שמסווגים בצורה הוגנת יותר את הפנים והפעילויות של אנשים בתמונות.

העבודה שנעשתה על ידי החוקרים הוצגה ב-30 בינואר בכנס של האגודה למכונות מחשוב בנושא הגינות, אחריות ושקיפות בברצלונה, ספרד.

"יש צורך מאוד שחוקרים ומעבדות עם מומחיות טכנית מרכזית בנושא יעסקו בשיחות מסוג זה", אמר רוסקובסקי. "בהתחשב במציאות שאנחנו צריכים לאסוף את הנתונים בקנה מידה, בהתחשב במציאות שזה הולך להיעשות עם מיקור המונים כי זה הצינור היעיל והמבוסס ביותר, איך אנחנו עושים את זה בצורה הוגנת יותר - זה לא לא ליפול למלכודות כאלה בעבר? המסר המרכזי של מאמר זה הוא סביב פתרונות בונים."

ImageNet הושקה ב-2009 על ידי קבוצה של מדעני מחשב בפרינסטון ובסטנפורד. הוא נועד לשמש משאב עבור חוקרים ומחנכים אקדמיים. את יצירת המערכת הובילו בוגרי פרינסטון וחברת הסגל Fei-Fei Li.

ImageNet הצליחה להפוך למסד נתונים כה גדול של תמונות מתויגות עד לשימוש במיקור המונים. אחת הפלטפורמות העיקריות בהן נעשה שימוש הייתה Amazon Mechanical Turk (MTurk), והעובדים קיבלו תשלום כדי לאמת תמונות מועמדות. זה גרם לכמה בעיות, והיו הרבה הטיות וסיווגים לא הולמים.

המחבר הראשי Kaiyu Yang הוא סטודנט לתואר שני במדעי המחשב.

"כשאתה מבקש מאנשים לאמת את התמונות על ידי בחירת התמונות הנכונות מתוך קבוצה גדולה של מועמדים, אנשים מרגישים לחוצים לבחור כמה תמונות והתמונות האלה נוטות להיות אלה עם מאפיינים ייחודיים או סטריאוטיפיים", אמר.

החלק הראשון של המחקר כלל סינון של קטגוריות אנשים שעלולות להיות פוגעניות או רגישות מ-ImageNet. קטגוריות פוגעניות הוגדרו ככאלו שהכילו ניבולי פה או השמצות גזעיות או מגדריות. קטגוריה רגישה כזו הייתה סיווג אנשים על סמך נטייה מינית או דת. 54 סטודנטים לתואר שני מרקעים מגוונים הובאו להערות על הקטגוריות, והם הונחו לתייג קטגוריה רגישה אם הם לא בטוחים בה. כ-1,593% מהקטגוריות בוטלו, או 2,932 מתוך XNUMX קטגוריות האנשים ב-ImageNet.

לאחר מכן דירגו עובדי MTurk את "יכולת הדימוי" של הקטגוריות הנותרות בסולם של 1 עד 5. 158 קטגוריות סווגו כבטוחות וניתנות לתדמית, דירוג 4 ומעלה. קבוצת הקטגוריות המסוננות הללו כללה יותר מ-133,000 תמונות, שיכולות להיות שימושיות מאוד לאימון אלגוריתמי ראייה ממוחשבת.

החוקרים חקרו את הייצוג הדמוגרפי של אנשים בתמונות, ורמת ההטיה ב-ImageNet הוערכה. תוכן שמקורו במנועי חיפוש מספק לעתים קרובות תוצאות המייצגות יתר על המידה גברים, אנשים בהירי עור ומבוגרים בין הגילאים 18 עד 40.

"אנשים גילו שההפצה של הדמוגרפיה בתוצאות חיפוש התמונות מוטה מאוד, וזו הסיבה שההפצה ב- ImageNet גם מוטה", אמר יאנג. "במאמר זה ניסינו להבין עד כמה הוא מוטה, וגם להציע שיטה לאיזון ההתפלגות."

החוקרים בחנו שלוש תכונות המוגנות גם על פי חוקים נגד אפליה בארה"ב: צבע עור, ביטוי מגדר וגיל. עובדי MTurk הביאו אז כל תכונה של כל אדם בתמונה.

התוצאות הראו שלתוכן של ImageNet יש הטיה ניכרת. החסרים ביותר היו כהי עור, נקבות ומבוגרים מעל גיל 40.

תוכנן כלי ממשק אינטרנט המאפשר למשתמשים להשיג סט של תמונות מאוזנות מבחינה דמוגרפית באופן שהמשתמש בוחר.

"אנחנו לא רוצים לומר מהי הדרך הנכונה לאזן את הדמוגרפיה, כי זה לא נושא מאוד פשוט", אמר יאנג. "ההפצה יכולה להיות שונה בחלקים שונים של העולם - התפלגות צבעי העור בארה"ב שונה מאשר במדינות באסיה, למשל. אז אנחנו משאירים את השאלה הזו למשתמש שלנו, ואנחנו פשוט מספקים כלי לאחזר תת-קבוצה מאוזנת של התמונות."

צוות ImageNet עובד כעת על עדכונים טכניים לחומרה ולבסיס הנתונים שלו. הם גם מנסים ליישם את הסינון של קטגוריות האדם ואת כלי האיזון מחדש שפותח במחקר זה. ImageNet אמורה להתפרסם מחדש עם העדכונים, יחד עם קריאה למשוב מקהילת מחקר הראייה הממוחשבת.

המאמר נכתב גם על ידי Princeton Ph.D. סטודנט קלינט קינאמי ועוזר פרופסור למדעי המחשב ג'יה דנג. המחקר נתמך על ידי הקרן הלאומית למדע.

נושאים קשורים:AI אלגוריתמים בינה מלאכותית הטיה

למידה עמוקה המשמשת למציאת גנים הקשורים למחלות

לא לפספס

NBA משתמש בבינה מלאכותית ליצירת הבהרה

אלכס מקפרלנד

אלכס מקפרלנד הוא עיתונאי וסופר בינה מלאכותית הבוחן את ההתפתחויות האחרונות בתחום הבינה המלאכותית. הוא שיתף פעולה עם סטארט-אפים ופרסומים רבים של AI ברחבי העולם.