Доповнена реальність
Дослідники створили штучний інтелект, що генерує тривимірні голограми в режимі реального часу на смартфонах

Смартфони можуть скоро генерувати фотореалістичні тривимірні голограми, завдяки розробці моделі штучного інтелекту дослідниками з MIT. Система штучного інтелекту, розроблена командою MIT, визначає найкращий спосіб генерації голограм з серії вхідних зображень.
Дослідники з MIT недавно розробили моделі штучного інтелекту, які дозволяють генерувати фотореалістичні тривимірні голограми. Ця технологія може мати застосування для гарнітур VR і AR, а голограми навіть можуть бути згенеровані смартфоном.
На відміну від традиційних 3D і VR-дисплеїв, які просто створюють ілюзію глибини і можуть викликати нудоту і головний біль, голограмні дисплеї можуть бути переглянуті людьми без викликання окулярного напруження. Великим бар’єром на шляху створення голограмної медіа є обробка даних, необхідних для генерації голограми. Кожна голограма складається з величезної кількості даних, необхідних для створення “глибини” голограми. Через це генерація голограм зазвичай вимагає великої обчислювальної потужності. Щоб зробити голограмну технологію більш практичною, команда MIT застосовувала глибокі конволюційні нейронні мережі до цієї проблеми, створивши мережу, здатну швидко генерувати голограми на основі вхідних зображень.
Типовий підхід до генерації голограм полягає у генерації багатьох фрагментів голограм і потім використанні фізичних симуляцій для об’єднання цих фрагментів у повне зображення об’єкта або зображення. Це відрізняється від типового підходу, використовуваного для генерації голограм. У традиційному методі зображення розрізаються на частини, а потім використовуються таблиці пошукових запитів для з’єднання фрагментів голограми, оскільки таблиці пошукових запитів позначають межі різних фрагментів голограми. Процес визначення меж голограмних фрагментів за допомогою таблиць пошукових запитів досить тривалий і вимагає великої обчислювальної потужності.
За даними IEEE Spectrum, команда MIT розробила інший метод генерації голограм. Використовуючи потужність глибоких навчальних мереж, вони змогли розрізати зображення на фрагменти, які можна було重新 скласти у голограми за допомогою значно меншої кількості “шарів”. Новий метод аналізу і розрізання зображень значно зменшує кількість операцій, які система повинна виконувати.
Щоб розробити свій генератор голограм, що працює на штучному інтелекті, дослідницька команда почала з створення бази даних, що складається з близько 4000 комп’ютерних зображень, з відповідною тривимірною голограмою, призначеною для кожного з цих зображень. Конволюційна нейронна мережа була навчена на цьому наборі даних, вивчаючи, як кожне зображення було пов’язано з його голограмою і найкращим способом використання функцій для генерації голограм. Коли система штучного інтелекту отримала невідому дані з інформацією про глибину, вона могла тоді генерувати нові голограми з цих даних. Інформація про глибину подається за допомогою лідарних датчиків або дисплеїв з кількома камерами і відображається у вигляді комп’ютерного зображення. Деякі нові iPhone мають ці компоненти, що означає, що вони потенційно можуть генерувати голограми, якщо підключені до відповідного типу дисплея.
Нова система генерації голограм, що працює на штучному інтелекті, потребує значно менше пам’яті, ніж класичні методи. Система може генерувати тривимірні голограми з частотою 60 кадрів в секунду в повному кольорі з роздільною здатністю 1920 x 1080, використовуючи близько 620 кілобайт пам’яті під час виконання на одному загальнодоступному GPU. Дослідники змогли запустити свою систему на iPhone 11, генеруючи близько 1 голограми в секунду, тоді як на Google Edge TPU система могла відтворювати 2 голограми в секунду. Це свідчить про те, що система може бути адаптована для смартфонів, пристроїв AR і VR загалом. Система також може мати застосування для об’ємного 3D-друку або при створенні голограмних мікроскопів.
У майбутньому поліпшення технології можуть включати апаратне і програмне забезпечення для відстеження очей, що дозволить голограмам динамічно масштабуватися в роздільній здатності, коли користувач дивиться на конкретні місця.












