Вештачка интелигенција

Истражувачите користат длабоко учење за да ги претворат фотографиите од знаменитости во 4Д

Ажурирани on Декември 9, 2022

Истражувачите од Универзитетот Корнел развија нов метод кој користи длабоко учење со цел да ги претвори фотографиите од светски знаменитости во 4Д. Тимот се потпираше на јавно достапни туристички фотографии од главните точки како Фонтаната Ди Треви во Рим, а крајните резултати се 3Д слики кои се маневрирачки и можат да покажат промени во изгледот со текот на времето.

Новоразвиениот метод презема и синтетизира десетици илјади неозначени и недатирани фотографии и тоа е голем чекор напред за компјутерската визија.

Делото е насловено „Преземање примероци на функцијата Plenoptic, а беше претставен на виртуелната европска конференција за компјутерска визија, која се одржа помеѓу 23 и 28 август.

Ноа Сневели е вонреден професор по компјутерски науки во Cornell Tech и виш автор на трудот. Други соработници се докторантот на Корнел, Женгки Ли, прв автор на трудот, како и Абе Дејвис, доцент по компјутерски науки на Факултетот за компјутери и информатички науки и докторантот на Корнел Техника, Венки Ксиан.

„Тоа е нов начин на моделирање на сцена кој не само што ви овозможува да ја движите главата и да ја видите, да речеме, фонтаната од различни гледишта, туку ви дава и контроли за менување на времето“, рече Снавили.

„Ако навистина отидевте во Фонтаната Треви на вашиот одмор, начинот на кој ќе изгледа ќе зависи од тоа во кое време сте отишле - ноќе, таа ќе биде осветлена од рефлектори од дното. Во попладневните часови, ќе биде осветлено од сонце, освен ако не одите во облачен ден“, продолжи тој. „Го научивме целиот опсег на појавувања, врз основа на времето од денот и времето, од овие неорганизирани колекции на фотографии, така што можете да го истражите целиот опсег и истовремено да се движите низ сцената“.

Традиционалните ограничувања на видот на компјутерот

Бидејќи може да има толку многу различни текстури кои треба да се репродуцираат, тешко е традиционалната компјутерска визија прецизно да ги претстави местата преку фотографии.

„Реалниот свет е толку разновиден по својот изглед и има различни видови материјали - сјајни нешта, вода, тенки структури“, рече Сневили.

Покрај тие бариери, традиционалната компјутерска визија се бори и со неконзистентни податоци. Plenoptic функција е како нешто се појавува од секоја можна гледна точка во просторот и времето, но за да се репродуцира ова, потребни се стотици веб-камери на местото на настанот. Не само тоа, туку тие ќе треба да снимаат цело ден и ноќ. Ова може да се направи, но задачата е исклучително тешка за ресурси кога се гледа бројот на сцени каде што би бил потребен овој метод.

Учење од други фотографии

Со цел да се заобиколи ова, тимот на истражувачи го разви новиот метод.

„Можеби нема да има фотографија направена во 4 часот од оваа гледна точка во сетот на податоци. Значи, мораме да учиме од фотографија направена во 9 часот на една локација и фотографија направена во 4:03 од друга локација“, рече Снавели. „И не ја знаеме грануларноста кога се направени овие фотографии. Но, користењето на длабокото учење ни овозможува да заклучиме како би изгледала сцената во кое било дадено време и место“.

Истражувачите воведоа нова претстава на сцена наречена Deep Multiplane Images со цел да го интерполираат изгледот во четири димензии, кои се 3D и се менуваат со текот на времето.

Според Snavely, „Ја користиме истата идеја измислена за создавање 3D ефекти во 2D анимација за да создадеме 3D ефекти во сцени од реалниот свет, за да ја создадеме оваа длабока повеќеслојна слика со тоа што ќе ја прилагодиме на сите овие различни мерења од фотографиите на туристите. Интересно е што некако произлегува од оваа многу стара, класична техника што се користи во анимацијата“.

Студијата покажа дека обучениот модел може да создаде сцена со 50,000 јавно достапни слики од различни локации. Тимот верува дека тоа би можело да има импликации во многу области, вклучувајќи истражување на компјутерска визија и виртуелен туризам.

„Можете да имате чувство дека навистина сте таму“, рече Сневили. „Функционира изненадувачки добро за низа сцени“.

Проектот доби поддршка од поранешниот извршен директор и филантроп на Google, Ерик Шмит, како и од Венд Шмит.

Crowdsaging Функцијата Plenoptic

Watch this video on YouTube

Поврзани теми:AI вештачка интелигенција длабоко учење

Следно

Систем за вештачка интелигенција способен да движи поединечни молекули

Не ја пропуштајте

Стартапот на вештачката интелигенција Diffbot чита цел јавен интернет за да продолжи со генерирање текст базиран на факти

Алекс Мекфарланд

Алекс Мекфарланд е новинар и писател за вештачка интелигенција кој ги истражува најновите случувања во вештачката интелигенција. Соработувал со бројни стартапи и публикации за вештачка интелигенција ширум светот.