בדל DataGen מאבטחת 18 מיליון דולר בהשקעות ליצירת נתונים סינתטיים עבור AIs - Unite.AI
צור קשר

בינה מלאכותית

DataGen מאבטחת 18 מיליון דולר בהשקעות ליצירת נתונים סינתטיים עבור AIs

mm
מְעוּדכָּן on

חברת הסטארטאפ הישראלית DataGen יש ל לאחרונה גייסה 18.5 מיליון דולר לממן יצירת פלטפורמה המיועדת להפקת נתונים סינתטיים עבור חברות בינה מלאכותית.

כל חברת בינה מלאכותית מתמודדת עם אותו אתגר מרכזי, איסוף הנתונים הדרושים לאימון דגמי הבינה המלאכותית שלה. הצורך בנתוני אימון איכותיים הוא כה גדול עד שהוא הוביל לתת-תעשיה שלמה המוקדשת לספק לחברות בינה מלאכותית את הנתונים הדרושים להן להכשרת המודלים שלהן. חברות בינה מלאכותית וחברות סמוכות לבינה מלאכותית מחפשות תמיד דרכים חדשות להשיג את הנתונים שהם צריכים. אחת הדרכים להשיג את נתוני ההדרכה האלה היא פשוט לייצר או ליצור את הנתונים.

כפי שדיווחה Fortune, DataGen מתמחה בשימוש במודלים של למידת מכונה משלהם כדי ליצור נתונים סינתטיים עבור חברות אחרות כדי לאמן את המודלים שלהן, במיוחד נתוני תמונה ווידאו. הנתונים שנוצרו על ידי החברה מנוצלים לאחר מכן על ידי הלקוחות שלהם כדי להכשיר את דגמי הבינה המלאכותית שלהם. לדברי מנכ"ל ומייסד DataGen, אופיר צ'אקון, החברה יכולה ליצור מערך נתונים סינתטי שלם עבור חברת לקוח תוך שעות ספורות. זה מהיר יותר באופן משמעותי משך הזמן שלוקח בדרך כלל להכין מערך נתונים לשימוש, שהוא לעתים קרובות שבועות או אפילו חודשים של תיוג נתונים.

ישנן סיבות נוספות לכך שהנתונים הסינטטיים אטרקטיביים לחברות, מלבד המהירות היחסית שבה ניתן להכין אותם. נתונים סינתטיים אינם מגיעים עם סוגי דאגות פרטיות שיש לנתונים אמיתיים. ככל שנוצרים חוקים נוספים כדי להגן על פרטיות הנתונים של אנשים, זה הופך אטרקטיבי יותר לקבל נתוני אימון סינתטיים. הערכה אחת שניתנה על ידי חברת ניתוח הטכנולוגיה גרטנר צופה שעד 2023 כ-65% מאוכלוסיית העולם יהיו מוגנים על ידי חוק כלשהו לפרטיות נתונים.

למרות העובדה שהנתונים הסינתטיים אינם מבוססים על אנשים אמיתיים, הם עדיין יכולים להיות מוטים. הנתונים שנוצרו על ידי מודל נתונים סינתטיים יהיו בעלי אותם דפוסים שהיו לנתוני האימון המקוריים, כלומר אם מערך נתונים מוטה ההטיות הללו יהיו קיימות בנתונים החדשים שנוצרו. ל-DataGen יש אסטרטגיות להפחתת הטיית נתונים בנתונים שנוצרו. שיטה אחת להפחתת הטיה בנתונים סינתטיים היא הגדלת שיעור ההתרחשות של אירועים נדירים יחסית, כלומר אם מחלקה אחת במערך הנתונים מיוצגת בתת-ייצוג ניתן להגביר את שיעור ההתרחשות שלה למשהו שווה יותר.

הטכניקה של הגברת התרחשותם של אירועים נדירים חשובה להפליא בעת יצירת מערכי נתונים הכוללים תרחישים שעלולים להיות מסוכנים. שקול מערך נתונים המשמש לאימון רכב אוטונומי. הרכב חייב להגיב באופן אמין לאירועים נדירים, כגון בולען שנפער בכביש. עם זאת, אירועים אלו נדירים מאוד, וקשה לקבל נתוני הכשרה עבור אירועים אלו. מסיבה זו, לעתים קרובות יש צורך להפיק נתוני אימון עבור אירועים נדירים אלו.

כפי שצ'אקון הסביר דרך Fortune:

"ללקוחות שלנו יש שליטה מלאה על כל הפרמטרים שנכנסים לנתונים שהם יוצרים. המשמעות של העולם האמיתי היא שלאחר פריסה, אתה יכול להיות בטוח שזה יעבוד היטב בתחומים שונים, עם אתניות שונות, במקומות גיאוגרפיים שונים או בכל סביבה שאתה יכול לדמיין."

DataGen משתמש ברשתות יריביות (GANs Generative Adversarial Networks) כדי ליצור סימולציות מציאותיות של פריטים ואירועים מהעולם האמיתי. צ'אקון הסביר שהחברה יכולה ליצור באופן מהימן דוגמאות מציאותיות לכל דבר הכרוך בסביבות פנימיות או בתפיסה אנושית. לדוגמה, מערך תמונות שנוצר על ידי DataGen יכול לכלול דוגמאות של אובייקטים המשמשים לאימון זרוע איסוף רובוטית המשמשת ללוגיסטיקה של מחסנים, כאשר התמונות שנוצרו נראות בלתי ניתנות להבחנה מהדבר האמיתי. התוכנה של DataGen יכולה ליצור אובייקטים תלת מימדיים על ידי שילוב של רשת ויזואלית עם מערכת הדמיית פיזיקה.

המשקיעים ב-DataGen כוללים מגוון של אנשים וחברות בעלי פרופיל גבוה. המשקיעים כוללים את מנהלי חטיבת המחקר של AI של Nvidia ומכון מקס פלנק למערכות חכמות, וכן אנתוני גולדבלום, מנכ"ל Kaggle.