Connect with us

DataGen ืžืฉื™ื’ื” 18 ืžื™ืœื™ื•ืŸ ื“ื•ืœืจ ื‘ื”ืฉืงืขื•ืช ืœื™ืฆื™ืจืช ื ืชื•ื ื™ื ืกื™ื ืชื˜ื™ื™ื ืœ-AI

ื‘ื™ื ื” ืžืœืื›ื•ืชื™ืช

DataGen ืžืฉื™ื’ื” 18 ืžื™ืœื™ื•ืŸ ื“ื•ืœืจ ื‘ื”ืฉืงืขื•ืช ืœื™ืฆื™ืจืช ื ืชื•ื ื™ื ืกื™ื ืชื˜ื™ื™ื ืœ-AI

mm

החברה הישראלית DataGen השיגה לאחרונה 18.5 מיליון דולר למימון יצירת פלטפורמה המוקדשת ליצירת נתונים סינתטיים לחברות AI.

כל חברת בינה מלאכותית מתמודדת עם אתגר יסודי, איסוף הנתונים הדרושים לאימון מודלי ה-AI שלה. הצורך בנתוני אימון באיכות גבוהה כה גדול, עד שהוא הוביל לתעשייה משנית שלמה המוקדשת לספק נתונים לחברות AI. חברות AI וחברות הקשורות ל-AI תמיד מחפשות דרכים חדשות לקבל את הנתונים שהן צריכות. דרך אחת לקבל נתוני אימון היא ליצור או לייצר נתונים.

כפי שדווח על ידי Fortune, DataGen מתמחה בשימוש במודלים של מודלי למידת מכונה כדי ליצור נתונים סינתטיים לחברות אחרות לאימון מודליהן, במיוחד נתוני תמונה ווידאו. הנתונים המיוצרים על ידי החברה משמשים אז ללקוחותיה לאימון מודלי ה-AI שלהם. על פי דבריו של Ofir Chakon, מנכ”ל ומייסד DataGen, החברה יכולה ליצור נתונים סינתטיים מלאים עבור חברה לקוחה בתוך כמה שעות. זה מהיר בהרבה מהזמן הרגיל שלוקח להכין סט נתונים לשימוש, שלרוב הוא שבועות או אפילו חודשים של סימון נתונים.

יש סיבות אחרות שנתונים סינתטיים מושכים לחברות, מלבד המהירות היחסית שבה הם יכולים להיערך. נתונים סינתטיים אינם באים עם סוגיות פרטיות כמו שנתונים אמיתיים עושים. ככל שיותר חוקים נוצרים להגן על פרטיות הנתונים, זה הופך להיות מושך יותר להיות עם נתוני אימון סינתטיים. אחת ההערכות שניתנה על ידי חברת הניתוח הטכנולוגי Gartner חוזה כי עד 2023, כ-65% מאוכלוסיית העולם תהיה מוגנת על ידי חוקי פרטיות נתונים.

למרות העובדה שנתונים סינתטיים אינם מבוססים על אנשים אמיתיים, הם עדיין יכולים להיות מוטים. הנתונים המיוצרים על ידי מודל נתונים סינתטיים יהיו עם אותם דפוסים שהנתונים המקוריים היו, מה שאומר שאם סט נתונים מוטה, הנטיות האלו יתקיימו בנתונים החדשים. DataGen היא אסטרטגיות להפחתת הטיה בנתונים המיוצרים. אחת השיטות להפחתת הטיה בנתונים סינתטיים היא הגברת שיעור התרחשות של אירועים נדירים, מה שאומר שאם מחלקה אחת בסט הנתונים מיוצגת באופן לא מספק, שיעור התרחשותה יכול להיגבר עד למשהו יותר שווה.

הטכניקה של הגברת התרחשות אירועים נדירים היא חשובה ביותר כאשר יוצרים סטי נתונים הקשורים לתרחישים פוטנציאלית מסוכנים. ניתן לשקול סט נתונים המשמש לאימון רכב אוטונומי. הרכב חייב להגיב באופן אמין לאירועים נדירים, כגון פתיחת בור בכביש. עם זאת, אירועים אלו הם נדירים מאוד, וקבלת נתוני אימון לאירועים אלו היא קשה. בשל כך, נתוני אימון לאירועים נדירים אלו צריכים להיות מיוצרים.

כפי שהסביר Chakon דרך Fortune:

“לקוחותינו הם בשליטה מלאה על כל הפרמטרים שנכנסים לנתונים שהם יוצרים. המשמעות האמיתית היא, שכאשר הוא מופעל, אתה יכול להיות בטוח שזה יעבוד טוב בתחומים שונים, עם אוכלוסיות שונות, במיקומים גאוגרפיים שונים או בכל סביבה שאתה יכול לדמיין.”

DataGen משתמשת ברשתות יריבות יוצרות (GANs) כדי ליצור סימולציות ריאליסטיות של פריטים ואירועים בעולם האמיתי. Chakon הסביר כי החברה יכולה לייצר באופן אמין דוגמאות ריאליסטיות של כל דבר הקשור לסביבות פנים או תפיסה אנושית. למשל, סט נתוני תמונה שנוצר על ידי DataGen יכול לכלול דוגמאות של אובייקטים המשמשים לאימון זרוע רובוטית לבחירת מוצרים ללוגיסטיקה, עם תמונות מיוצרות שנראות בלתי ניתנות להבדל מהדבר האמיתי. תוכנת DataGen יכולה לייצר אובייקטים תלת-ממדיים על ידי שילוב רשת תמונה עם מערכת סימולציה פיזית.

משקיעים ב-DataGen כוללים מגוון רחב של אנשים וחברות בעלי פרופיל גבוה. המשקיעים כוללים את המנהלים של מחלקת המחקר AI של Nvidia והמכון המקס פלאנק למערכות אינטליגנטיות, כמו גם את Anthony Goldbloom, מנכ”ל Kaggle.

ื‘ืœื•ื’ืจ ื•ืžืชื›ื ืช ืขื ื”ืชืžื—ื•ื™ื•ืช ื‘ื ื•ืฉืื™ื Machine Learning ื• Deep Learning. ื“ื ื™ืืœ ืžืงื•ื•ื” ืœืขื–ื•ืจ ืœืื—ืจื™ื ืœื”ืฉืชืžืฉ ื‘ื›ื•ื— ืฉืœ AI ืœื˜ื•ื‘ืช ื”ื—ื‘ืจื”.