toco DeepMind descobre técnica de treinamento de IA que também pode funcionar em nossos cérebros - Unite.AI
Entre em contato

Inteligência artificial

DeepMind descobre técnica de treinamento de IA que também pode funcionar em nossos cérebros

mm
Atualização do on

DeepMind recentemente publicou um artigo detalhando como um tipo recém-desenvolvido de aprendizado por reforço poderia potencialmente explicar como funcionam os caminhos de recompensa dentro do cérebro humano. Conforme relatado por NewScientist, o método de treinamento de aprendizado de máquina é chamado de aprendizado por reforço distributivo e os mecanismos por trás dele parecem explicar de forma plausível como a dopamina é liberada pelos neurônios no cérebro.

A neurociência e a ciência da computação têm uma longa história juntas. Já em 1951, Marvin Minksy usou um sistema de recompensas e punições para criar um programa de computador capaz de resolver um labirinto. Minksy foi inspirado pelo trabalho de Ivan Pavlov, um fisiologista que demonstrou que os cães podem aprender por meio de uma série de recompensas e punições. O novo artigo da Deepmind contribui para a história entrelaçada da neurociência e da ciência da computação, aplicando um tipo de aprendizado por reforço para obter informações sobre como os neurônios da dopamina podem funcionar.

Sempre que uma pessoa, ou animal, está prestes a realizar uma ação, as coleções de neurônios em seu cérebro responsáveis ​​pela liberação de dopamina fazem uma previsão sobre o quão gratificante será a ação. Uma vez que a ação foi realizada e as consequências (recompensas) dessa ação se tornaram aparentes, o cérebro libera dopamina. No entanto, essa liberação de dopamina é dimensionada de acordo com o tamanho do erro na previsão. Se a recompensa for maior/melhor do que o esperado, um aumento mais forte de dopamina é acionado. Em contraste, uma recompensa pior leva a menos dopamina sendo liberada. A dopamina serve como uma função corretiva que faz com que os neurônios ajustem suas previsões até que converjam para as recompensas reais que estão sendo ganhas. Isso é muito semelhante a como os algoritmos de aprendizado por reforço operam.

O ano de 2017 viu os pesquisadores da DeepMind lançarem uma versão aprimorada de um algoritmo de aprendizado por reforço comumente usado, e esse método de aprendizado superior foi capaz de aumentar o desempenho em muitas tarefas de aprendizado por reforço. A equipe do DeepMind pensou que os mecanismos por trás do novo algoritmo poderiam ser usados ​​para explicar melhor como os neurônios dopaminérgicos operam no cérebro humano.

Em contraste com os algoritmos de aprendizado por reforço mais antigos, o algoritmo mais recente do DeepMind representa as recompensas como uma distribuição. Abordagens mais antigas de aprendizado por reforço representavam recompensas estimadas como apenas um único número que representava o resultado médio esperado. Essa alteração permitiu que o modelo representasse com mais precisão possíveis recompensas e tivesse um melhor desempenho como resultado. O desempenho superior do novo método de treinamento levou os pesquisadores do DeepMind a investigar se os neurônios de dopamina no cérebro humano operam de maneira semelhante.

Para investigar o funcionamento dos neurônios dopaminérgicos, a DeepMind trabalhou ao lado de Harvard para pesquisar a atividade dos neurônios dopaminérgicos em camundongos. Os pesquisadores fizeram os camundongos realizarem várias tarefas e deram a eles recompensas com base no lançamento de dados, registrando como seus neurônios de dopamina disparavam. Diferentes neurônios pareciam prever diferentes resultados potenciais, liberando diferentes quantidades de dopamina. Alguns neurônios previram menos do que a recompensa real, enquanto alguns previram recompensas mais altas do que a recompensa real. Depois de traçar a distribuição das previsões de recompensa, os pesquisadores descobriram que a distribuição das previsões era bastante próxima da distribuição de recompensa genuína. Isso sugere que o cérebro faz uso de um sistema distributivo ao fazer previsões e ajustar as previsões para melhor corresponder à realidade.

O estudo poderia informar tanto a neurociência quanto a ciência da computação. O estudo apóia o uso do aprendizado por reforço distributivo como um método de criação de modelos de IA mais avançados. Além disso, pode ter implicações para nossas teorias de como o cérebro opera em relação aos sistemas de recompensa. Se os neurônios dopaminérgicos são distribuídos e alguns são mais pessimistas ou otimistas do que outros, entender essas distribuições pode alterar a forma como abordamos aspectos da psicologia, como saúde mental e motivação.

Conforme relatado pelo MIT Technology View, Matt Botvinik, diretor de pesquisa em neurociência da DeepMind, explicou a importância das descobertas em uma coletiva de imprensa. Botvinik disse:

“Se o cérebro está usando, provavelmente é uma boa ideia. Ele nos diz que esta é uma técnica computacional que pode escalar em situações do mundo real. Vai se encaixar bem com outros processos computacionais. Isso nos dá uma nova perspectiva sobre o que está acontecendo em nossos cérebros durante a vida cotidiana”