בדל יצירת מערכי נתונים של פצעים סינתטיים עם רשתות יריבות יצירתיות - Unite.AI
צור קשר

בריאות

יצירת מערכי נתונים של פצעים סינתטיים עם רשתות יריבות יצירתיות

mm

יצא לאור

 on

בפעם הראשונה, א רשת אדברסרית Generative משמש ליצירת מערכי נתונים סינתטיים של תמונות פצע, על מנת לתקן חוסר קריטי בתוכן מגוון ונגיש מסוג זה ביישומי למידת מכונה של שירותי בריאות.

המערכת, נקראת WG2AN, הוא שיתוף פעולה בין מכללת באטן להנדסה וטכנולוגיה וחברת AI heath eKare, המתמחה ביישום מתודולוגיות למידת מכונה למדידה וזיהוי של פצעים.

ה-GAN מאומן על 100-4000 תמונות סטריאוסקופיות של פצעים כרוניים המסופקים על ידי eKare, כולל תמונות אנונימיות של סוגי פציעות מסיבות כמו לחץ, ניתוח, אירועי לימפה וכלי דם, סוכרת ופציעות כוויות. חומר המקור השתנה בגודל בין 1224×1224 ל-2160×2160, הכל נלקח באור זמין על ידי רופאים.

כדי להכיל את המרחב הסמוי הזמין בארכיטקטורת האימון של המודל, התמונות הותאמו מחדש ל-512×512, וחולצו מהרקע שלהן. כדי לחקור את ההשפעה של גודל מערך הנתונים, ריצות בדיקה יושמו על אצווה של 100, 250, 500, 1000, 2000 ו-4000 תמונות.

מקור: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

מקור: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

התמונה שלמעלה מציגה את הפירוט והפירוט הגדלים בהתאם לגודל מערך האימונים התורם ומספרם תקופות לרוץ בכל מעבר.

הארכיטקטורה של WG. מקור: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

הארכיטקטורה של WG2GAN. מקור: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

WG2GAN פועל על PyTorch על התקנה בסגנון צרכני רזה יחסית, עם 8GB של VRAM על GTX 1080 GPU. האימון נמשך בין 4-58 שעות על פני טווח גדלי הנתונים של 100-4000 תמונות, ועל פני טווח של תקופות, על גודל אצווה של 64 כחילוץ בין דיוק לביצועים. ה- Adam Optimizer משמש למחצית הראשונה של האימון בקצב למידה של 0.0002, והסתיים בקצב למידה דעיכה ליניארי עד להשגת אובדן של אפס.

למעלה משמאל, פילוח מוחל על אזור הפצע. מעל המרכז, תמונה של הפצע בפועל; למעלה מימין, פצע סינתטי מסוג שניתן להכליל במערך נתונים, בהתבסס על המקור המקורי. למטה, הפצע המקורי, ומימין, סינתזה של הפצע שנוצר על ידי WG2GAN.

למעלה משמאל, פילוח מוחל על אזור הפצע. מעל המרכז, תמונה של הפצע בפועל; למעלה מימין, פצע סינתטי מסוג שניתן להכליל במערך נתונים, בהתבסס על המקור המקורי. למטה, הפצע המקורי, ומימין, סינתזה של הפצע שנוצר על ידי WG2GAN.

במערכי נתונים רפואיים, כמו במגזרים רבים אחרים של למידת מכונה, תיוג הוא צוואר בקבוק בלתי נמנע. במקרה זה, החוקרים השתמשו במערכת תיוג חצי אוטומטית הממנפת מחקר קודם מ-eKare, שהשתמשה במודלים אמיתיים של פצעים, שנוצרו ב-Play-Doh וצבעו בערך להקשר סמנטי.

דגמי eKare Wound

דגמי eKare Wound

החוקרים ציינו בעיה שמתרחשת לעתים קרובות בשלבים הראשוניים של האימון, כאשר מערך הנתונים הוא די מגוון ומשקלים הם אקראי - למודל לוקח הרבה זמן (75 עידנים) כדי "להתיישב":

כאשר הנתונים מגוונים, גם מודלים של GAN וגם מודלים של מקודדים/מפענחים נאבקים להשיג הכללה בשלבים המוקדמים יותר, כפי שניתן לראות בגרף שלעיל של האימון של WG2GAN, העוקבת אחר ציר הזמן של האימון מתחילתו ועד אפס הפסד.

יש להקפיד על כך שתהליך האימון לא יתקבע על התכונות או המאפיינים של איטרציה או תקופה אחת, אלא ימשיך להכליל לאובדן ממוצע שמיש מבלי לייצר תוצאות המופשטות יתר על המידה את חומר המקור. במקרה של WG2GAN, שעלול להסתכן ביצירת פצעים בלתי מוגבלים, "בדיוניים" לחלוטין, המשולבים בין מגוון רחב מדי של סוגי פצעים לא קשורים, במקום לייצר מגוון מדויק של וריאציות בתוך סוג פצע מסוים.

שליטה בהיקף במערך נתונים של למידת מכונה

מודלים עם ערכות אימונים קלות יותר מכלילים מהר יותר, וחוקרי המאמר טוענים שניתן להשיג את התמונות המציאותיות ביותר בפחות מההגדרות המקסימליות: מערך נתונים של 1000 תמונות מאומן במשך 200 עידנים.

למרות שמערכי נתונים קטנים יותר עשויים להשיג תמונות מציאותיות ביותר בפחות זמן, טווח התמונות וסוגי הפצעים שנוצרו בהכרח יהיו מוגבלים יותר גם כן. קיים איזון עדין במשטרי האימון של GAN ושל מקודדים/מפענחים בין נפח ומגוון נתוני הקלט, נאמנות התמונות המופקות והריאליזם של התמונות המופקות - סוגיות של היקף ושקלול שבוודאי לא מוגבלים לתדמית רפואית סִינתֶזָה.

חוסר איזון מעמדי במערכים רפואיים

באופן כללי, למידת מכונה בתחום הבריאות מוטרדת לא רק על ידי א היעדר מערכי נתונים, אבל על ידי חוסר איזון מעמדי, כאשר נתונים חיוניים על מחלה ספציפית מהווים אחוז כה קטן ממערך הנתונים המארח שלה, עד שהוא עלול להיפסל כנתונים חריגים, או להיטמע בתהליך ההכללה במהלך האימון.

הוצעו מספר שיטות לטיפול בסוגיה האחרונה, כגון תת-דגימה או דגימת יתר. עם זאת, הבעיה נמנעת לעתים קרובות על ידי פיתוח מערכי נתונים ספציפיים למחלה הקשורים לחלוטין לבעיה רפואית אחת. למרות שגישה זו יעילה על בסיס כל מקרה, היא תורמת לתרבות של בלקניזציה בתחום חקר למידת מכונה רפואית, וללא ספק מאט את ההתקדמות הכללית במגזר.