Inteligência artificial

Nova Técnica Permite que a IA Entenda Intuitivamente Alguns Conceitos de Física

Published December 6, 2019

Updated April 5, 2026

Daniel Nelson

A inteligência artificial tem sido capaz de desenvolver uma compreensão da física por meio do aprendizado por reforço há algum tempo, mas uma nova técnica desenvolvida por pesquisadores do MIT pode ajudar os engenheiros a projetar modelos que demonstrem uma compreensão intuitiva da física.

Pesquisas psicológicas mostraram que, em certa medida, os seres humanos têm uma compreensão intuitiva das leis da física. Os bebês têm expectativas de como os objetos devem interagir e se mover, e violações dessas expectativas farão com que os bebês reajam com surpresa. A pesquisa realizada pela equipe do MIT tem o potencial de não apenas impulsionar novas aplicações da inteligência artificial, mas também ajudar os psicólogos a entender como os bebês percebem e aprendem sobre o mundo.

O modelo projetado pela equipe do MIT é chamado de ADEPT e funciona fazendo previsões sobre como os objetos devem se comportar em um espaço físico. O modelo observa os objetos e acompanha uma métrica de “surpresa” à medida que o faz. Se algo inesperado acontece, o modelo responde aumentando seu valor de surpresa. Ações inesperadas e aparentemente impossíveis, como um objeto teleportar ou desaparecer completamente, verão um aumento dramático na surpresa.

O objetivo da equipe de pesquisa era fazer com que seu modelo registrasse os mesmos níveis de surpresa que os humanos registram quando veem objetos se comportando de maneiras implausíveis.

O ADEPT tem dois componentes principais, um motor de física e um módulo de gráficos inversos. O motor de física é responsável por prever como um objeto se moverá, prevendo uma representação futura de um objeto, a partir de uma variedade de estados possíveis. Enquanto isso, o módulo de gráficos inversos é responsável por criar as representações dos objetos que serão alimentadas no motor de física.

O módulo de gráficos inversos acompanha vários atributos diferentes, como velocidade, forma e orientação de um objeto, extraídos de frames de vídeos. O módulo de gráficos inversos se concentra apenas nos detalhes mais salientes, ignorando detalhes que não ajudarão o motor de física a interpretar o objeto e prever novos estados. Ao se concentrar apenas nos detalhes mais importantes, o modelo é capaz de generalizar para novos objetos. O motor de física então pega essas descrições de objetos e simula comportamentos físicos mais complexos, como fluidez ou rigidez, para fazer previsões sobre como o objeto deve se comportar.

Depois que ocorre o processo de ingestão, o modelo observa o próximo frame real do vídeo, que usa para recalcular sua distribuição de probabilidade em relação a comportamentos de objetos possíveis. A surpresa é inversamente proporcional à probabilidade de que um evento deva ocorrer, registrando apenas grande surpresa quando há uma grande discrepância entre o que o modelo acredita que deve acontecer em seguida e o que realmente acontece em seguida.

A equipe de pesquisa precisava de alguma forma de comparar a surpresa do modelo com a surpresa das pessoas que observam o mesmo comportamento do objeto. Na psicologia do desenvolvimento, os pesquisadores frequentemente testam bebês mostrando-lhes dois vídeos diferentes. Em um vídeo, um objeto é apresentado que se comporta como você esperaria que os objetos se comportassem no mundo real, não desaparecendo ou teleportando espontaneamente. No outro vídeo, um objeto viola as leis da física de alguma forma. A equipe de pesquisa pegou esses mesmos conceitos básicos e fez com que 60 adultos assistissem a 64 vídeos diferentes de comportamento físico esperado e inesperado. Os participantes foram então solicitados a avaliar sua surpresa em vários momentos do vídeo em uma escala de 1 a 100.

A análise do desempenho do modelo demonstrou que ele se saiu muito bem em vídeos onde um objeto era movido para trás de uma parede e desaparecia quando a parede era removida, geralmente correspondendo aos níveis de surpresa humanos nesses casos. O modelo também pareceu estar surpreso com vídeos onde os humanos não demonstraram surpresa, mas argumentariam que deveriam ter. Por exemplo, para que um objeto se mova para trás de uma parede a uma velocidade determinada e saia imediatamente do outro lado da parede, ele deve ter teleportado ou experimentado um aumento dramático de velocidade.

Quando comparado ao desempenho de redes neurais tradicionais que são capazes de aprender por observação, mas não registram explicitamente a representação de um objeto, os pesquisadores descobriram que a rede ADEPT foi muito mais precisa em discriminar entre cenas surpreendentes e não surpreendentes e que o desempenho da ADEPT se alinhava mais estreitamente com as reações humanas.

A equipe de pesquisa do MIT está visando realizar mais pesquisas e obter uma compreensão mais profunda de como os bebês observam o mundo ao seu redor e aprendem com essas observações, incorporando suas descobertas em novas versões do modelo ADEPT.

Unite.AI

Nova Técnica Permite que a IA Entenda Intuitivamente Alguns Conceitos de Física

You may like