AI 101

מה זה נתונים סינתטיים?

מְעוּדכָּן on דצמבר 9, 2022

מה זה נתונים סינתטיים?

נתונים סינתטיים הם מגמה המתרחבת במהירות וכלי מתפתח בתחום מדעי הנתונים. מה זה בדיוק נתונים סינתטיים? התשובה הקצרה היא שמהם מורכבים נתונים סינתטיים נתונים שאינם מבוססים על תופעות או אירועים בעולם האמיתי, אלא הוא נוצר באמצעות תוכנית מחשב. אולם מדוע נתונים סינתטיים הופכים חשובים כל כך עבור מדעי הנתונים? כיצד נוצרים נתונים סינתטיים? הבה נחקור את התשובות לשאלות אלו.

מהו מערך נתונים סינתטי?

כפי שהמונח "סינטטי" מרמז, מערכי נתונים סינתטיים נוצרים באמצעות תוכנות מחשב, במקום להיות מורכבים באמצעות תיעוד של אירועים בעולם האמיתי. המטרה העיקרית של מערך נתונים סינתטי היא להיות רב תכליתי וחזק מספיק כדי להיות שימושי להדרכה של מודלים של למידת מכונה.

על מנת להיות שימושי עבור מסווג למידת מכונה, הנתונים הסינתטיים צריך להיות בעל תכונות מסוימות. בעוד שהנתונים יכולים להיות קטגוריים, בינאריים או מספריים, אורך מערך הנתונים צריך להיות שרירותי והנתונים צריכים להיווצר באופן אקראי. התהליכים האקראיים המשמשים להפקת הנתונים צריכים להיות ניתנים לשליטה ולהתבסס על התפלגויות סטטיסטיות שונות. רעש אקראי עשוי להיות ממוקם במערך הנתונים.

אם נעשה שימוש בנתונים הסינתטיים עבור אלגוריתם סיווג, כמות ההפרדה המחלקה צריכה להיות ניתנת להתאמה אישית, על מנת שניתן יהיה להקל או להקשות על בעיית הסיווג בהתאם לדרישות הבעיה. בינתיים, עבור משימת רגרסיה, ניתן להשתמש בתהליכי יצירה לא ליניאריים כדי ליצור את הנתונים.

למה להשתמש בנתונים סינתטיים?

ככל שמסגרות למידת מכונה כמו TensorfFlow ו-PyTorch הופכות קלות יותר לשימוש ומודלים שתוכננו מראש לראייה ממוחשבת ועיבוד שפה טבעית הופכים להיות נפוצים יותר וחזקים יותר, הבעיה העיקרית איתה צריכים מדעני נתונים להתמודד היא איסוף וטיפול בנתונים. חברות מתקשות לעתים קרובות לרכוש כמויות גדולות של נתונים כדי להכשיר מודל מדויק בתוך מסגרת זמן נתונה. תיוג נתונים ידני הוא דרך יקרה ואיטית להשיג נתונים. עם זאת, יצירה ושימוש בנתונים סינתטיים יכולים לעזור למדעני נתונים וחברות להתגבר על המכשולים הללו ולפתח מודלים אמינים של למידת מכונה בצורה מהירה יותר.

ישנם מספר יתרונות לשימוש בנתונים סינתטיים. הדרך הברורה ביותר שבה השימוש בנתונים סינתטיים מועיל למדע הנתונים היא שהוא מצמצם את הצורך ללכוד נתונים מאירועים בעולם האמיתי, ומסיבה זו ניתן ליצור נתונים ולבנות מערך נתונים הרבה יותר מהר מאשר מערך נתונים התלוי ב אירועים בעולם האמיתי. המשמעות היא שניתן לייצר כמויות גדולות של נתונים בטווח זמן קצר. זה נכון במיוחד לאירועים שמתרחשים לעיתים רחוקות, כאילו אירוע מתרחש רק לעתים רחוקות בטבע, ניתן ללגלג על נתונים נוספים מכמה דגימות נתונים אמיתיות. מעבר לכך, ניתן לתייג את הנתונים באופן אוטומטי בזמן שהם נוצרים, מה שמצמצם באופן דרסטי את משך הזמן הדרוש לתיוג נתונים.

נתונים סינתטיים יכולים להיות שימושיים גם כדי להשיג נתוני אימון עבור מקרי קצה, שהם מקרים שעלולים להתרחש לעתים רחוקות אך הם קריטיים להצלחת הבינה המלאכותית שלך. מקרי קצה הם אירועים הדומים מאוד למטרה העיקרית של AI אך שונים במובנים חשובים. לדוגמה, אובייקטים שנראים רק בחלקם יכולים להיחשב למקרי קצה בעת תכנון מיון תמונות.

לבסוף, מערכי נתונים סינתטיים יכול למזער את חששות הפרטיות. ניסיונות להפוך נתונים לאנונימיים יכולים להיות לא יעילים, שכן גם אם משתנים רגישים/מזהים יוסרו ממערך הנתונים, משתנים אחרים יכולים לשמש כמזהים כאשר הם משולבים. זו לא בעיה עם נתונים סינתטיים, מכיוון שהם מעולם לא היו מבוססים על אדם אמיתי, או אירוע אמיתי, מלכתחילה.

משתמש במארזים לנתונים סינתטיים

לנתונים סינתטיים יש מגוון רחב של שימושים, שכן ניתן ליישם אותו כמעט על כל משימת למידת מכונה. מקרי שימוש נפוצים עבור נתונים סינתטיים כוללים רכבים בנהיגה עצמית, אבטחה, רובוטיקה, הגנה מפני הונאה ושירותי בריאות.

אחד ממקרי השימוש הראשוניים בנתונים סינתטיים היה מכוניות בנהיגה עצמית, שכן נתונים סינתטיים משמשים ליצירת נתוני אימון למכוניות בתנאים שבהם קבלת נתוני אימון אמיתיים על הכביש היא קשה או מסוכנת. נתונים סינתטיים שימושיים גם ליצירת נתונים המשמשים לאימון מערכות זיהוי תמונות, כמו מערכות מעקב, בהרבה יותר יעיל מאשר איסוף ידני ותווית של חבורה של נתוני אימון. מערכות רובוטיקה יכולות להיות איטיות לאימון ולפיתוח עם שיטות איסוף והדרכה מסורתיות. נתונים סינתטיים מאפשרים לחברות רובוטיקה לבדוק ולהנדס מערכות רובוטיקה באמצעות סימולציות. מערכות הגנה מפני הונאה יכולות להפיק תועלת מנתונים סינתטיים, וניתן לאמן ולבדוק שיטות חדשות לגילוי הונאה עם נתונים שהם כל הזמן חדשים כאשר נעשה שימוש בנתונים סינתטיים. בתחום הבריאות, ניתן להשתמש בנתונים סינתטיים כדי לעצב סיווגי בריאות מדויקים, אך שומרים על פרטיותם של אנשים, מכיוון שהנתונים לא יתבססו על אנשים אמיתיים.

אתגרי נתונים סינתטיים

השימוש בנתונים סינתטיים אמנם מביא עמו יתרונות רבים, אך מביא איתו גם אתגרים רבים.

כאשר נוצרים נתונים סינתטיים, הם לרוב חסרים חריגים. חריגים מתרחשים בנתונים באופן טבעי, ולעיתים קרובות הם נופלים ממערכי נתונים של אימון, קיומם עשוי להיות נחוץ כדי להכשיר מודלים של למידת מכונה אמינים באמת. מעבר לכך, איכות הנתונים הסינתטיים יכולה להיות מאוד משתנה. נתונים סינתטיים נוצרים לעתים קרובות עם נתוני קלט, או סיד, ולכן איכות הנתונים יכולה להיות תלויה באיכות נתוני הקלט. אם הנתונים המשמשים ליצירת הנתונים הסינתטיים מוטים, הנתונים שנוצרו יכולים להנציח את ההטיה הזו. נתונים סינתטיים דורשים גם צורה כלשהי של פלט/בקרת איכות. יש לבדוק את זה מול נתונים עם הערות אנושיות, אחרת נתונים אותנטיים הם צורה כלשהי.

כיצד נוצרים נתונים סינתטיים?

נתונים סינתטיים נוצרים באופן פרוגרמטי עם טכניקות למידת מכונה. ניתן להשתמש בטכניקות למידת מכונה קלאסיות כמו עצי החלטה, כמו טכניקות למידה עמוקה. הדרישות לנתונים הסינתטיים ישפיעו על סוג האלגוריתם המשמש ליצירת הנתונים. עצי החלטה ומודלים דומים של למידת מכונה מאפשרים לחברות ליצור הפצות נתונים לא-קלאסיים, רב-מודאליים, מאומנים על דוגמאות של נתונים מהעולם האמיתי. יצירת נתונים עם אלגוריתמים אלה תספק נתונים בקורלציה גבוהה עם נתוני האימון המקוריים. במקרים שבהם ידועה ההפצה האופיינית של נתונים, חברה יכולה ליצור נתונים סינתטיים באמצעות שימוש בשיטת מונטה קרלו.

שיטות מבוססות למידה עמוקה להפקת נתונים סינתטיים עושות שימוש בדרך כלל באחת מהן מקודד אוטומטי (VAE) or רשת יריבות יצירתית (GAN). VAEs הם מודלים של למידת מכונה ללא פיקוח שעושים שימוש במקודדים ומפענחים. חלק המקודד של VAE אחראי לדחיסת הנתונים לגרסה פשוטה וקומפקטית יותר של מערך הנתונים המקורי, אשר לאחר מכן המפענח מנתח ומשתמש בו כדי ליצור ייצוג של נתוני הבסיס. VAE מאומן במטרה ליצור קשר אופטימלי בין נתוני הקלט והפלט, כזה שבו גם נתוני הקלט ונתוני הפלט דומים מאוד.

כשזה מגיע לדגמי GAN, הם נקראים רשתות "יריבות" בשל העובדה ש-GAN הן למעשה שתי רשתות שמתחרות זו בזו. המחולל אחראי להפקת נתונים סינתטיים, בעוד שהרשת השנייה (המפלה) פועלת על ידי השוואת הנתונים שנוצרו עם מערך נתונים אמיתי ומנסה לקבוע אילו נתונים מזויפים. כאשר המפלה תופס נתונים מזויפים, המחולל מקבל הודעה על כך והוא מבצע שינויים כדי לנסות לקבל אצווה חדשה של נתונים על ידי המאבחן. בתורו, המאבחן נעשה טוב יותר ויותר בזיהוי זיופים. שתי הרשתות מאומנות זו מול זו, כאשר זיופים הופכים להיות יותר אמיתיים כל הזמן.