Inteligência artificial
Primeiro aniversário do ChatGPT: remodelando o futuro da interação com IA

Ao refletir sobre o primeiro ano do ChatGPT, fica claro que esta ferramenta mudou significativamente o cenário da IA. Lançado no final de 2022, o ChatGPT se destacou por seu estilo conversacional e amigável, que fez com que a interação com a IA parecesse mais com uma conversa com uma pessoa do que com uma máquina. Essa nova abordagem rapidamente chamou a atenção do público. Em apenas cinco dias após seu lançamento, o ChatGPT já havia atraído um milhão de usuários. No início de 2023, esse número disparou para cerca de 100 milhões de usuários mensais e, em outubro, a plataforma atraía cerca de 1.7 bilhão de visitas em todo o mundo. Esses números dizem muito sobre sua popularidade e utilidade.
Ao longo do último ano, os usuários encontraram diversas maneiras criativas de usar o ChatGPT, desde tarefas simples como escrever e-mails e atualizar currículos até abrir negócios de sucesso. Mas não se trata apenas de como as pessoas o utilizam; a tecnologia em si evoluiu e se aprimorou. Inicialmente, o ChatGPT era um serviço gratuito que oferecia respostas detalhadas em texto. Agora, existe o ChatGPT Plus, que inclui o ChatGPT-4. Esta versão atualizada é treinada com mais dados, gera menos respostas erradas e compreende melhor instruções complexas.
Uma das maiores novidades é que o ChatGPT agora pode interagir de diversas maneiras: ele pode ouvir, falar e até processar imagens. Isso significa que você pode falar com ele pelo aplicativo e mostrar imagens para obter respostas. Essas mudanças abriram novas possibilidades para a IA e mudaram a forma como as pessoas veem e pensam sobre o papel da IA em nossas vidas.
Desde o seu início como uma demonstração tecnológica até o seu status atual como um grande player no mundo da tecnologia, a trajetória do ChatGPT é impressionante. Inicialmente, era visto como uma forma de testar e aprimorar tecnologias por meio do feedback do público. Mas rapidamente se tornou uma parte essencial do cenário da IA. Esse sucesso demonstra a eficácia do ajuste fino de modelos de grandes linguagens (LLMs) com aprendizado supervisionado e feedback humano. Como resultado, o ChatGPT pode lidar com uma ampla gama de perguntas e tarefas.
A corrida para desenvolver os sistemas de IA mais capazes e versáteis levou a uma proliferação de modelos de código aberto e proprietários, como o ChatGPT. Compreender as suas capacidades gerais requer benchmarks abrangentes num amplo espectro de tarefas. Esta seção explora esses benchmarks, esclarecendo como diferentes modelos, incluindo ChatGPT, se comparam.
Avaliando LLMs: os benchmarks
- Banco MT: Este benchmark testa habilidades de conversação em vários turnos e acompanhamento de instruções em oito domínios: redação, dramatização, extração de informações, raciocínio, matemática, codificação, conhecimento STEM e ciências humanas/sociais. LLMs mais fortes como GPT-4 são usados como avaliadores.
- AlpacaEval: Com base no conjunto de avaliação AlpacaFarm, este avaliador automático baseado em LLM compara modelos com respostas de LLMs avançados como GPT-4 e Claude, calculando a taxa de vitória dos modelos candidatos.
- Tabela de classificação LLM aberta: Utilizando o conjunto de avaliação de modelo de linguagem, esta tabela de classificação avalia LLMs em sete benchmarks principais, incluindo desafios de raciocínio e testes de conhecimento geral, tanto em configurações de tentativa zero quanto de poucas tentativas.
- GRANDE-banco: Este benchmark colaborativo abrange mais de 200 novas tarefas linguísticas, abrangendo uma ampla gama de tópicos e idiomas. O objetivo é investigar LLMs e prever suas capacidades futuras.
- Avaliação de bate-papo: Uma estrutura de debate multiagente que permite às equipes discutir e avaliar de forma autônoma a qualidade das respostas de diferentes modelos em questões abertas e tarefas tradicionais de geração de linguagem natural.
Desempenho Comparativo
Em termos de benchmarks gerais, os LLMs de código aberto mostraram um progresso notável. Lhama-2-70B, por exemplo, alcançou resultados impressionantes, especialmente depois de ser ajustado com dados de instrução. Sua variante, Llama-2-chat-70B, se destacou no AlpacaEval com uma taxa de vitória de 92.66%, superando o GPT-3.5-turbo. No entanto, o GPT-4 continua na vanguarda, com uma taxa de vitória de 95.28%.
Zéfiro-7B, um modelo menor, demonstrou capacidades comparáveis a LLMs 70B maiores, especialmente em AlpacaEval e MT-Bench. Enquanto isso, o WizardLM-70B, ajustado com uma ampla gama de dados de instrução, obteve a pontuação mais alta entre os LLMs de código aberto no MT-Bench. No entanto, ainda ficou atrás do GPT-3.5-turbo e do GPT-4.
Uma entrada interessante, GodziLLa2-70B, alcançou uma pontuação competitiva no Open LLM Leaderboard, mostrando o potencial de modelos experimentais que combinam diversos conjuntos de dados. Da mesma forma, o Yi-34B, desenvolvido do zero, destacou-se com pontuações comparáveis ao GPT-3.5-turbo e apenas ligeiramente atrás do GPT-4.
O UltraLlama, com seu ajuste fino em dados diversos e de alta qualidade, igualou o GPT-3.5-turbo em seus benchmarks propostos e até o superou em áreas de conhecimento mundial e profissional.
Ampliando: A Ascensão dos LLMs Gigantes
Uma tendência notável no desenvolvimento de LLMs tem sido a ampliação dos parâmetros dos modelos. Modelos como Gopher, GLaM, LaMDA, MT-NLG e PaLM expandiram os limites, culminando em modelos com até 540 bilhões de parâmetros. Esses modelos demonstraram capacidades excepcionais, mas sua natureza de código fechado limitou sua aplicação mais ampla. Essa limitação estimulou o interesse no desenvolvimento de LLMs de código aberto, uma tendência que está ganhando força.
Paralelamente à ampliação dos tamanhos dos modelos, pesquisadores exploraram estratégias alternativas. Em vez de apenas aumentar o tamanho dos modelos, eles se concentraram em aprimorar o pré-treinamento de modelos menores. Exemplos incluem Chinchilla e UL2, que demonstraram que mais nem sempre é melhor; estratégias mais inteligentes também podem gerar resultados eficientes. Além disso, tem havido considerável atenção ao ajuste de instruções de modelos de linguagem, com projetos como FLAN, T0 e Flan-T5 contribuindo significativamente para essa área.
O catalisador ChatGPT
A introdução do OpenAI ChatGPT marcou um ponto de virada na pesquisa em PNL. Para competir com a OpenAI, empresas como Google e Anthropic lançaram seus próprios modelos, Bard e Claude, respectivamente. Embora esses modelos apresentem desempenho comparável ao ChatGPT em muitas tarefas, ainda ficam atrás do modelo mais recente da OpenAI, o GPT-4. O sucesso desses modelos é atribuído principalmente ao aprendizado por reforço a partir do feedback humano (RLHF), uma técnica que vem recebendo cada vez mais atenção em pesquisas para aprimoramento.
Rumores e especulações em torno do Q* (Q-Star) da OpenAI
Relatórios recentes sugerem que os pesquisadores da OpenAI podem ter alcançado um avanço significativo na IA com o desenvolvimento de um novo modelo chamado Q* (pronuncia-se Q star). Supostamente, Q* tem a capacidade de realizar matemática de nível escolar, um feito que gerou discussões entre especialistas sobre seu potencial como um marco em direção à inteligência artificial geral (AGI). Embora a OpenAI não tenha comentado esses relatórios, os rumores de habilidades do Q* geraram considerável entusiasmo e especulação nas redes sociais e entre os entusiastas da IA.
O desenvolvimento do Q* é digno de nota porque os modelos de linguagem existentes como ChatGPT e GPT-4, embora capazes de algumas tarefas matemáticas, não são particularmente hábeis em lidar com elas de forma confiável. O desafio reside na necessidade de os modelos de IA não apenas reconhecerem padrões, como fazem atualmente através de aprendizagem profunda e transformadores, mas também raciocinarem e compreenderem conceitos abstratos. A matemática, sendo uma referência para o raciocínio, exige que a IA planeje e execute múltiplas etapas, demonstrando uma compreensão profunda de conceitos abstratos. Esta capacidade marcaria um salto significativo nas capacidades de IA, estendendo-se potencialmente além da matemática para outras tarefas complexas.
No entanto, especialistas alertam contra a superestimação desse desenvolvimento. Embora um sistema de IA que resolva problemas matemáticos de forma confiável seja uma conquista impressionante, isso não sinaliza necessariamente o advento da IA superinteligente ou da IAG. As pesquisas atuais em IA, incluindo os esforços da OpenAI, têm se concentrado em problemas elementares, com graus variados de sucesso em tarefas mais complexas.
As aplicações potenciais de avanços como o Q* são vastas, abrangendo desde tutoria personalizada até auxílio em pesquisa científica e engenharia. No entanto, também é importante gerenciar expectativas e reconhecer as limitações e preocupações de segurança associadas a tais avanços. As preocupações com a IA representando riscos existenciais, uma preocupação fundamental da OpenAI, permanecem pertinentes, especialmente à medida que os sistemas de IA começam a se conectar mais com o mundo real.
O movimento LLM de código aberto
Para impulsionar a pesquisa LLM de código aberto, a Meta lançou os modelos da série Llama, desencadeando uma onda de novos desenvolvimentos baseados no Llama. Isso inclui modelos ajustados com dados de instrução, como Alpaca, Vicuna, Lima e WizardLM. A pesquisa também está se ramificando no aprimoramento das capacidades dos agentes, do raciocínio lógico e da modelagem de longo contexto dentro da estrutura baseada no Llama.
Além disso, há uma tendência crescente de desenvolvimento de LLMs poderosos do zero, com projetos como MPT, Falcon, XGen, Phi, Baichuan, Mistral, Groke Yi. Estes esforços refletem um compromisso de democratizar as capacidades dos LLMs de código fechado, tornando as ferramentas avançadas de IA mais acessíveis e eficientes.
O impacto do ChatGPT e dos modelos de código aberto na saúde
Estamos vislumbrando um futuro em que os LLMs auxiliarão na tomada de notas clínicas, no preenchimento de formulários para reembolsos e no apoio aos médicos no diagnóstico e planejamento de tratamentos. Isso chamou a atenção tanto de gigantes da tecnologia quanto de instituições de saúde.
Microsoft discussões com a Epic, um fornecedor líder de software para registros eletrônicos de saúde, sinaliza a integração de LLMs na área da saúde. Iniciativas já estão em andamento no UC San Diego Health e no Stanford University Medical Center. Da mesma forma, o Google parcerias com Mayo Clinic e Amazon Web ServicesO lançamento do HealthScribe, um serviço de documentação clínica de IA, marca avanços significativos nessa direção.
No entanto, estas rápidas implementações levantam preocupações sobre a cedência do controlo da medicina aos interesses empresariais. A natureza proprietária destes LLMs torna-os difíceis de avaliar. Sua possível modificação ou descontinuação por motivos de lucratividade poderia comprometer o atendimento, a privacidade e a segurança do paciente.
A necessidade urgente é de uma abordagem aberta e inclusiva para o desenvolvimento do LLM na área da saúde. Instituições de saúde, investigadores, médicos e pacientes devem colaborar globalmente para construir LLMs de código aberto para cuidados de saúde. Esta abordagem, semelhante ao Consórcio de Trilhões de Parâmetros, permitiria reunir recursos computacionais, financeiros e conhecimentos especializados.