בריאות

מיפוי נתיבים לעיוורים בעזרת למידת מכונה

יצא לאור

לפני 3 שנים

8 ביולי 2021

מחקר חדש מגרמניה מציע מערכת ניידת חדשה המופעלת על ידי GPU כדי לעזור לאנשים לקויי ראייה לנווט בעולם האמיתי. המערכת נותנת מענה לאחד מאתגרי הליבה במסגרות ראייה ממוחשבת בזמן אמת - זיהוי זכוכית ומכשולים שקופים אחרים.

אל האני מאמר, מהמכון הטכנולוגי של קרלסרוהה, מפרט את בנייתה של מערכת הנלבשת על ידי המשתמש, בשם Trans4Trans, המורכבת מזוג משקפיים חכמים המחוברים למארז GPU נייד, למעשה מחשב נייד קל משקל, הלוכד תמונות RGB ועומק ב-640×480 פיקסלים בזרם מתמשך, המופעל לאחר מכן דרך מסגרת פילוח סמנטי.

החיישנים הניידים במתקן Trans4Trans. מקור: https://arxiv.org/pdf/2107.03172.pdf

יכולות המשוב החושי של המערכת מתגברות על ידי זוג אוזניות מוליכות עצם, אשר פולטות משוב אקוסטי בתגובה למכשולים סביבתיים.

מערכת Trans4Trans נוסתה גם על מתקן המציאות הרבודה של Microsoft HoloLens 2, והשיגה פילוח מלא ועקבי (כלומר זיהוי) של חסימות שעלולות להיות מסוכנות כמו דלתות זכוכית.

Trans4Trans פועל על HoloLens 2.

אדריכלות

Trans4Trans משתמש בגישה כפולה, תוך שימוש בשני א מבוסס שנאים מקודד ומפענח, ומינוף קנייני מודול זיווג שנאי (TPM) מסוגל לאסוף מפות תכונות שנוצרות על ידי הטבעות של מחיצות צפופות, בעוד שהמפענח מבוסס השנאים מסוגל לנתח באופן עקבי מפות תכונות מהמקודד המזווג שלו.

הארכיטקטורה של Trans4Trans.

כל TPM מורכב משכבה אחת מבוססת שנאי, חיונית לניקוז המשאבים הנמוך ולניידות המערכת. המפענח מכיל ארבעה שלבים סימטריים עבור המקודד, כאשר לכל אחד מוקצה מודול TPM. המערכת חוסכת במשאבים על ידי שילוב הפונקציונליות של גישות מרובות לתוך מערכת קוהרנטית, במקום פריסת שני מודלים נפרדים בזרימת עבודה ליניארית.

חומרה

המשקפיים המשמשים במערכת משלבים חיישן RealSense R200 RGB-D, בעוד שהמכונה המארחת מכילה ג'טסון AGX קסבייר NVIDIA GPU, המיועד למערכות משובצות, וכולל 384 ליבות NVIDIA CUDA ו-48 ליבות Tensor.

ה-R200 מציע כתמים מקרינים והתאמת סטריאו פסיבית, מה שהופך אותו מתאים לסביבות פנים וחוץ. למתקן הכתמים יש תועלת מיוחדת בהערכת משטחים שקופים, מכיוון שהוא מגדיל ומבהיר את הנתונים החזותיים הנכנסים מבלי להסתנוור ממקורות אור קיצוניים. יכולות האינפרא אדום של החיישן גם עוזרות להשיג גיאומטריה ברורה וליצור מפות עומק ניתנות לפעולה, שהן קריטיות להתחמקות ממכשולים, בהקשר של מטרות הפרויקט.

מניעת עומס קוגניטיבי עבור המשתמש

המערכת צריכה להגיע לאיזון בין תדירות נתונים נאותה למידע מופרז, שכן הלובש צריך להיות מסוגל להבחין בסביבה באופן קוהרנטי באמצעות משוב אודיו ומשוב רטט.

כתוצאה מכך, Trans4Trans מגבילה באופן מלאכותי את נפח נתוני המשוב, עם סף ברירת מחדל בודד שהוגדר למטר אחד, במקום לאלץ את המשתמש ללמוד מגוון הגדרות רטט המתאימות למרחקים משתנים של עצמים ומחסומים מתקרבים.

בדיקת Trans4Trans

מערכת Trans4Trans נוסתה על שני מערכי נתונים העוסקים בפילוח של אובייקטים שקופים: Trans10K-V2, מאוניברסיטת הונג קונג ואח', המכיל 10,428 תמונות של אובייקטים שקופים לאימות, אימון ובדיקה; ומערך הנתונים Stanford2D3D, המכיל 70,496 תמונות של אובייקטים מעורבים של שקיפות, שצולמו ברזולוציה של 1080×1080.

תמונות ומסיכות מתאימות ממערך הנתונים של Trans10k. מקור: https://arxiv.org/pdf/2101.08461.pdf

מערכת Stanford2D3D בפעולה. מקור: http://buildingparser.stanford.edu/dataset.html

בבדיקה, Trans4Trans הצליחה גם לפלח אובייקטים שקופים שסווגו בצורה שגויה על ידי ה- Trans2Seg יזמה שוחרר בתחילת 2021 על ידי אותם חוקרים, תוך צורך בפחות GFLOPS כדי לחשב ולפלח את המשטחים.

בניגוד ל-Trans2Seq, המשתמשת במקודד מבוסס-CNN ומפענח מבוסס-שנאים, Trans4Trans משתמשת רק בארכיטקטורת מקודד-מפענח מבוסס-שנאי, מעלה על הגישה הקודמת וגם משתפרת מאוד ב-PVT.

האלגוריתם השיג גם תוצאות מתקדמות עבור מספר מסוים של מחלקות שקופות, כולל צנצנת, חלון, דלת, גָבִיעַ, קופסה ו בקבוק.

נושאים קשורים:מחקר

חוקרים יוצרים מודל חיזוי גיל מוח מבוסס בינה מלאכותית

לא לפספס

קביעת שיכרון עם ניתוח למידת מכונה של עיניים

מרטין אנדרסון

כותב על למידת מכונה, בינה מלאכותית וביג דאטה.
אתר אישי: martinanderson.ai
איש קשר: [מוגן בדוא"ל]
טוויטר: @manders_ai

Unite.AI

מיפוי נתיבים לעיוורים בעזרת למידת מכונה

בריאות