Охорона здоров’я

Розробка шляхів для сліпих за допомогою машинного навчання

Published July 8, 2021

Updated April 28, 2026

Martin Anderson

Нові дослідження з Німеччини пропонують нову, портативну систему на основі GPU, яка допомагає людям з порушенням зору орієнтуватися у реальному світі. Система вирішує одну з основних проблем реальних комп’ютерних систем бачення – ідентифікацію скла та інших прозорих перешкод.

Стаття з Карлсруської інженерної школи описує конструкцію системи, яка складається з пари розумних окулярів, підключених до портативного корпусу GPU, який захоплює RGB- та глибинні зображення розміром 640×480 пікселів у безперервному потоці, який потім обробляється за допомогою семантичної сегментації.

Мобільні сенсори системи Trans4Trans. Джерело: https://arxiv.org/pdf/2107.03172.pdf

Сенсорні можливості системи посилюються парою окулярів з проводенням звуку через кістки, які видають акустичну зворотню зв’язок у відповідь на перешкоди довкілля.

Система Trans4Trans також була протестована на Microsoft HoloLens 2, досягнувши повної та послідовної сегментації потенційно небезпечних перешкод, таких як скляні двері.

Система Trans4Trans на HoloLens 2.

Архітектура

Trans4Trans використовує подвійний підхід, використовуючи як трансформер-кодувальник, так і декодувальник, і використовуючи власний модуль Transformer Pairing Module (TPM), який здатний об’єднувати карти особливостей, згенеровані вкладеннями густих поділів, тоді як трансформер-кодувальник能够 послідовно розбирати карти особливостей від свого парного кодувальника.

Архітектура системи Trans4Trans.

Кожен TPM складається з одного трансформер-шару, необхідного для низького витрачання ресурсів і портативності системи. Декодувальник містить чотири симетричні стадії для кодувальника, з модулем TPM, призначеним для кожної. Система економить ресурси, інтегруючи функціональність кількох підходів у єдину систему, а не розгортаючи дві окремі моделі у лінійному робочому процесі.

Апаратне забезпечення

Окуляри, використані в системі, містять сенсор RealSense R200 RGB-D, тоді як господарська машина містить Jetson AGX Xavier NVIDIA GPU, призначений для вбудованих систем, і оснащений 384 ядрами NVIDIA CUDA і 48 ядрами Tensor.

R200 пропонує спекл-проєкцію і пасивне стерео-суміщення, що робить його придатним для внутрішнього та зовнішнього середовища. Спекл-обладнання особливо корисне при оцінці прозорих поверхонь, оскільки воно посилює і уточнює вхідні візуальні дані без засліплення від екстремальних джерел світла. Інфрачервоні можливості сенсора також допомагають отримувати чітку геометрію і форму діючих карт глибини, які критично важливі для уникнення перешкод у контексті цілей проекту.

Запобігання когнітивної перевантаженості користувача

Система повинна знайти баланс між адекватною частотою даних і надмірною інформацією, оскільки користувач повинен能够 розрізняти середовище послідовно через аудіо-зворотню зв’язок і вібраційну зворотню зв’язок.

Відповідно система Trans4Trans штучно обмежує обсяг даних зворотньої зв’язку, з одним стандартним порогом, встановленим на один метр, а не примушуючи користувача вивчати різноманітні налаштування вібрації, які відповідають різним відстаням наближення об’єктів і перешкод.

Тестування системи Trans4Trans

Система Trans4Trans була протестована на двох наборах даних, пов’язаних із сегментацією прозорих об’єктів: Trans10K-V2, з університету Гонконгу et al, який містить 10 428 зображень прозорих об’єктів для перевірки, навчання і тестування; і набір даних Stanford2D3D, який містить 70 496 зображень об’єктів змішаної прозорості, захоплених у роздільній здатності 1080×1080.

Зображення та відповідні маски з набору даних Trans10k. Джерело: https://arxiv.org/pdf/2101.08461.pdf

Система Stanford2D3D у дії. Джерело: http://buildingparser.stanford.edu/dataset.html

Під час тестування система Trans4Trans також能够 сегментувати прозорі об’єкти, які були неправильно класифіковані ініціативою Trans2Seg розробників на початку 2021 року, при цьому вимагаючи менше GFLOPS для розрахунку та сегментації поверхонь.

На відміну від Trans2Seq, який використовує CNN-кодувальник і трансформер-декодувальник, система Trans4Trans використовує лише архітектуру трансформер-кодувальника-декодувальника, перевершуючи попередній підхід і суттєво покращуючи PVT.

Алгоритм також досягнув найкращих результатів для певної кількості прозорих класів, включаючи банку, вітрину, двері, чашку, коробку і бутылку.

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]

Unite.AI

Розробка шляхів для сліпих за допомогою машинного навчання

Архітектура

Апаратне забезпечення

Запобігання когнітивної перевантаженості користувача

Тестування системи Trans4Trans

You may like