Робототехника
Модель машинного обучения понимает отношения объектов

Исследователи из Массачусетского технологического института (MIT) разработали новую модель машинного обучения (ML), которая понимает основные отношения между объектами на сцене. Модель представляет отдельные отношения по одному, а затем объединяет представления для описания общей сцены.
Благодаря этому новому подходу модель машинного обучения может генерировать более точные изображения из текстовых описаний, и она может делать это, даже если в сцене есть несколько проектов, расположенных в разных отношениях друг с другом.
Эта новая разработка важна, учитывая, что многие модели глубокого обучения не могут понять запутанные отношения между отдельными объектами.
Модель команды можно использовать в тех случаях, когда промышленные роботы должны выполнять многоэтапные манипуляционные задачи, такие как укладка предметов или сборка приборов. Это также помогает машинам в конечном итоге научиться учиться и взаимодействовать с окружающей средой, как и люди.
Илун Ду — аспирант Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) и соавтор статьи. Ду руководил исследованием вместе с Шуан Ли, аспирантом CSAIL, и Нан Лю, аспирантом Университета Иллинойса в Урбана-Шампейн. В него также входили Джошуа Б. Тененбаум, Пол Э. Ньютон, профессор карьерного роста в области когнитивных наук и вычислений на кафедре мозга и когнитивных наук, и старший автор Антонио Торральба, профессор электротехники и информатики Delta Electronics. И Тененбаум, и Торральба являются членами CSAIL.
Новая структура
«Когда я смотрю на стол, я не могу сказать, что в точке XYZ находится объект. Наш разум так не работает. Когда мы понимаем сцену, мы понимаем её на основе взаимосвязей между объектами. Мы думаем, что, создав систему, которая может распознавать взаимосвязи между объектами, мы сможем использовать её для более эффективного управления и изменения нашего окружения», — говорит Ду.
Новый фреймворк может генерировать изображение сцены на основе текстового описания объектов и их взаимосвязей.
Затем система может разбить эти предложения на более мелкие части, описывающие каждое отдельное отношение. Затем каждая часть моделируется отдельно, а части объединяются в процессе оптимизации, который создает изображение сцены.
Когда предложения разбиты на более короткие части, система может затем комбинировать их по-разному, что позволяет ей адаптироваться к описаниям сцен, с которыми она никогда не сталкивалась.
«Другие системы рассматривали бы все взаимосвязи целостно и генерировали бы изображение по одному кадру на основе описания. Однако такие подходы не работают, когда у нас есть описания, не относящиеся к распределению, например, описания с большим количеством взаимосвязей, поскольку эти модели не могут адаптировать один кадр для генерации изображений, содержащих больше взаимосвязей. Однако, объединяя эти отдельные, более мелкие модели, мы можем моделировать большее количество взаимосвязей и адаптироваться к новым комбинациям», — говорит Ду.
Система также может выполнять этот процесс в обратном порядке. Если ему подается изображение, он может найти текстовые описания, соответствующие отношениям между объектами в сцене.
Оценка модели
Исследователи попросили людей оценить, соответствуют ли сгенерированные изображения исходному описанию сцены. Когда описания содержали три отношения, что было наиболее сложным типом, 91 процент участников заявили, что новая модель работает лучше, чем другие методы глубокого обучения.
«Одна интересная вещь, которую мы обнаружили, заключается в том, что для нашей модели мы можем увеличить наше предложение с одного описания отношения до двух, трех или даже четырех описаний, и наш подход по-прежнему способен генерировать изображения, которые правильно описываются этими отношениями. описания, в то время как другие методы терпят неудачу», — говорит Ду.
Модель также продемонстрировала впечатляющую способность работать с описаниями, с которыми ранее не сталкивалась.
«Это очень многообещающе, потому что это ближе к тому, как работают люди. Люди могут видеть только несколько примеров, но мы можем извлечь полезную информацию только из этих нескольких примеров и объединить их вместе, чтобы создать бесконечное число комбинаций. И у нашей модели есть такое свойство, которое позволяет ей учиться на меньшем количестве данных, но обобщать на более сложные сцены или поколения изображений», — говорит Ли.
Теперь команда попытается протестировать модель на более сложных изображениях реального мира и изучить, как в конечном итоге включить модель в системы робототехники.










