Engenharia imediata

Sua IA é mais poderosa do que você pensa

Publicado 20 de novembro de 2024

Alex McFarland

Uma equipe de cientistas acaba de descobrir algo que muda muito o que pensávamos saber sobre as capacidades da IA. Seus modelos não estão apenas processando informações – eles estão desenvolvendo habilidades sofisticadas que vão muito além do treinamento. E para desbloquear essas habilidades, precisamos mudar a forma como falamos com eles.

A Revolução do Conceito Espacial

Lembra quando pensávamos que a IA apenas correspondia a padrões? Nova pesquisa agora desvendou a caixa-preta do aprendizado de IA ao mapear algo que chamam de "espaço conceitual". Imagine o aprendizado de IA como um mapa multidimensional onde cada coordenada representa um conceito diferente – coisas como cor, forma ou tamanho. Ao observar como os modelos de IA se movem por esse espaço durante o treinamento, os pesquisadores descobriram algo inesperado: os sistemas de IA não apenas memorizam – eles constroem uma compreensão sofisticada de conceitos em velocidades diferentes.

“Ao caracterizar a dinâmica de aprendizagem neste espaço, identificamos como a velocidade com que um conceito é aprendido é controlada pelas propriedades dos dados”, observa a equipe de pesquisa. Em outras palavras, alguns conceitos clicam mais rápido do que outros, dependendo de quão fortemente eles se destacam nos dados de treinamento.

Eis o que torna isso tão interessante: quando modelos de IA aprendem esses conceitos, eles não os armazenam apenas como informações isoladas. Na verdade, eles desenvolvem a capacidade de misturá-los e combiná-los de maneiras que nunca lhes ensinamos explicitamente. É como se estivessem construindo seu próprio kit de ferramentas criativas – nós apenas não lhes demos as instruções corretas para usá-lo.

Pense no que isso significa para projetos de IA. Os modelos com os quais você está trabalhando podem já compreender combinações complexas de conceitos que você ainda não descobriu. A questão não é se eles podem fazer mais – mas como fazê-los mostrar do que realmente são capazes.

Desbloqueando poderes ocultos

É aqui que as coisas ficam fascinantes. Os pesquisadores projetaram um experimento elegante para revelar algo fundamental sobre como os modelos de IA aprendem. A configuração era enganosamente simples: eles treinaram um modelo de IA com apenas três tipos de imagens:

Grandes círculos vermelhos
Grandes círculos azuis
Pequenos círculos vermelhos

Então veio o teste crucial: o modelo conseguiria criar um pequeno círculo azul? Não se tratava apenas de desenhar uma nova forma – tratava-se de saber se o modelo conseguiria realmente entender e combinar dois conceitos diferentes (tamanho e cor) de uma forma nunca vista antes.

O que eles descobriram muda a forma como pensamos sobre as capacidades da IA. Quando eles usaram prompts normais para pedir um “pequeno círculo azul”, o modelo teve dificuldades. No entanto, o modelo realmente conseguiu fazer pequenos círculos azuis – nós apenas não estávamos pedindo da maneira certa.

Os pesquisadores descobriram duas técnicas que provaram isso:

“Intervenção latente” – É como encontrar uma porta dos fundos para o cérebro do modelo. Em vez de usar comandos comuns, eles ajustaram diretamente os sinais internos que representam "azul" e "pequeno". Imagine ter mostradores separados para cor e tamanho – eles descobriram que, girando esses mostradores de maneiras específicas, o modelo conseguia, de repente, produzir o que parecia impossível momentos antes.
“Excesso de solicitação” – Em vez de simplesmente pedir "azul", eles foram extremamente específicos com os valores das cores. É como a diferença entre dizer "torne azul" e "torne exatamente este tom de azul: RGB(0.3, 0.3, 0.7)". Essa precisão extra ajudou o modelo a acessar recursos que ficavam ocultos em condições normais.

Ambas as técnicas começaram a funcionar exatamente no mesmo ponto do treinamento do modelo – cerca de 6,000 passos de treinamento. Enquanto isso, o prompt regular falhou completamente ou precisou de mais de 8,000 passos para funcionar. E isso não foi um acaso – aconteceu consistentemente em vários testes.

Isso nos diz algo profundo: os modelos de IA desenvolvem capacidades em duas fases distintas. Primeiro, eles aprendem a combinar conceitos internamente – é o que acontece por volta da etapa 6,000. Mas há uma segunda fase em que aprendem a conectar essas habilidades internas à nossa maneira habitual de pedir coisas. É como se o modelo se tornasse fluente em um novo idioma antes de aprender a traduzi-lo para nós.

As implicações são significativas. Quando achamos que um modelo não pode fazer algo, podemos estar errados – ele pode ter a habilidade, mas não ter a conexão entre nossos prompts e suas capacidades. Isso não se aplica apenas a formas e cores simples – pode ser verdade para habilidades mais complexas em sistemas de IA maiores também.

Quando os pesquisadores testaram essas ideias em dados do mundo real usando o Conjunto de dados faciais CelebA, eles encontraram os mesmos padrões. Tentaram fazer com que o modelo gerasse imagens de "mulheres com chapéus" – algo que ele não havia visto no treinamento. Os prompts regulares falharam, mas o uso de intervenções latentes revelou que o modelo realmente conseguia criar essas imagens. A capacidade estava lá – só não era acessível pelos meios normais.

Park et al., Universidade de Harvard e Pesquisa NTT

O principal argumento

Precisamos repensar como avaliamos as capacidades de IA. Só porque um modelo pode não ser capaz de fazer algo com prompts padrão não significa que ele não possa fazê-lo de forma alguma. A lacuna entre o que os modelos de IA podem fazer e o que podemos fazer com que eles façam pode ser menor do que pensávamos — só precisamos melhorar em perguntar.

Esta descoberta não é apenas teórica – ela muda fundamentalmente a forma como devemos pensar sobre sistemas de IA. Quando um modelo parece ter dificuldades em uma tarefa, podemos precisar nos perguntar se ele realmente não possui a capacidade necessária ou se simplesmente não a estamos acessando corretamente. Para desenvolvedores, pesquisadores e usuários, isso significa ser criativo na forma como interagimos com a IA – às vezes, a capacidade de que precisamos já está lá, apenas esperando pela chave certa para desbloqueá-la.

Tópicos relacionados:ENGENHARIA IMEDIATA

A seguir

O recurso Claude permite estilos de escrita personalizados

Não Perca

Técnica do Scratchpad: Pensamento estruturado com IA

Alex McFarland

Alex McFarland é um jornalista e escritor de IA que explora os mais recentes desenvolvimentos em inteligência artificial. Ele colaborou com inúmeras startups e publicações de IA em todo o mundo.

Unir-se.AI

Sua IA é mais poderosa do que você pensa

A Revolução do Conceito Espacial

Desbloqueando poderes ocultos

O principal argumento

Você pode gostar