AGI
Inflection-2.5: O Powerhouse LLM Rivalizando GPT-4 e Gemini
Inflection AI tem feito ondas no campo de grandes modelos de linguagem (LLMs) com a revelação recente de Inflection-2.5, um modelo que compete com os principais LLMs do mundo, incluindo GPT-4 da OpenAI e Gemini do Google.
A ascensão rápida da Inflection AI foi ainda mais impulsionada por uma massive rodada de financiamento de $1,3 bilhão, liderada por gigantes da indústria como Microsoft, NVIDIA, e investidores renomados, incluindo Reid Hoffman, Bill Gates e Eric Schmidt. Esse investimento significativo eleva o total de financiamento arrecadado pela empresa para $1,525 bilhão.
Em colaboração com os parceiros CoreWeave e NVIDIA, a Inflection AI está construindo o maior cluster de AI do mundo, composto por um sem precedentes 22.000 GPUs NVIDIA H100 Tensor Core. Esse colossal poder de processamento apoiará o treinamento e a implantação de uma nova geração de modelos de AI em larga escala, permitindo que a Inflection AI empurre os limites do que é possível no campo da AI pessoal.
O trabalho inovador da empresa já produziu resultados notáveis, com o cluster Inflection AI, atualmente composto por mais de 3.500 GPUs NVIDIA H100 Tensor Core, apresentando desempenho de ponta na benchmark de código aberto MLPerf. Em uma submissão conjunta com CoreWeave e NVIDIA, o cluster completou a tarefa de treinamento de referência para grandes modelos de linguagem em apenas 11 minutos, solidificando sua posição como o cluster mais rápido nessa benchmark.
Esse feito segue a revelação de Inflection-1, o modelo de linguagem grande interno da Inflection AI, que foi saudado como o melhor modelo em sua classe de computação. Superando gigantes da indústria como GPT-3.5, LLaMA, Chinchilla e PaLM-540B em uma ampla gama de benchmarks comumente usados para comparar LLMs, Inflection-1 permite que os usuários interajam com Pi, a AI pessoal da Inflection AI, de uma maneira simples e natural, recebendo informações e conselhos rápidos, relevantes e úteis.
O compromisso da Inflection AI com a transparência e a reprodutibilidade é evidente na liberação de uma nota técnica detalhando a avaliação e o desempenho de Inflection-1 em vários benchmarks. A nota revela que Inflection-1 supera modelos na mesma classe de computação, definida como modelos treinados usando no máximo as FLOPs (operações de ponto flutuante) de PaLM-540B.
O sucesso de Inflection-1 e a rápida escalada da infraestrutura de computação da empresa, impulsionada pela substancial rodada de financiamento, destacam a dedicação inabalável da Inflection AI em entregar sua missão de criar uma AI pessoal para todos. Com a integração de Inflection-1 em Pi, os usuários agora podem experimentar o poder de uma AI pessoal, beneficiando-se de sua personalidade empática, utilidade e padrões de segurança.
Inflection-2.5
Inflection-2.5 agora está disponível para todos os usuários de Pi, a assistente de AI pessoal da Inflection AI, em várias plataformas, incluindo a web (pi.ai), iOS, Android e um novo aplicativo de desktop. Essa integração marca um marco significativo na missão da Inflection AI de criar uma AI pessoal para todos, combinando capacidade bruta com sua personalidade empática e padrões de segurança.
Um Salto no Desempenho O modelo anterior da Inflection AI, Inflection-1, utilizou aproximadamente 4% das FLOPs (operações de ponto flutuante) de GPT-4 e exibiu um desempenho médio de cerca de 72% em comparação com GPT-4 em várias tarefas orientadas à inteligência. Com Inflection-2.5, a Inflection AI alcançou um aumento substancial nas capacidades intelectuais de Pi, com foco em codificação e matemática.
O desempenho do modelo em benchmarks da indústria demonstra sua habilidade, exibindo mais de 94% do desempenho médio de GPT-4 em várias tarefas, com ênfase especial em excelência em áreas de STEM. Esse feito notável é um testemunho do compromisso da Inflection AI em impulsionar a fronteira tecnológica, mantendo um foco inabalável na experiência do usuário e na segurança.
Habilidade em Codificação e Matemática Inflection-2.5 brilha em codificação e matemática, demonstrando mais de 10% de melhoria em relação a Inflection-1 no BIG-Bench-Hard, um subconjunto de problemas desafiadores para grandes modelos de linguagem. Dois benchmarks de codificação, MBPP+ e HumanEval+, revelam melhorias massivas em relação a Inflection-1, solidificando a posição de Inflection-2.5 como uma força a ser reconhecida no domínio da codificação.
No benchmark MBPP+, Inflection-2.5 supera seu antecessor por uma margem significativa, exibindo um nível de desempenho comparável ao de GPT-4, como relatado pelo DeepSeek Coder. Da mesma forma, no benchmark HumanEval+, Inflection-2.5 demonstra progresso notável, superando o desempenho de Inflection-1 e se aproximando do nível de GPT-4, como relatado na leaderboard EvalPlus.
Domínio em Benchmarks da Indústria
Inflection-2.5 se destaca nos benchmarks da indústria, exibindo melhorias substanciais em relação a Inflection-1 nos benchmarks MMLU e GPQA Diamond, renomados por sua dificuldade de nível de especialista. O desempenho do modelo nesses benchmarks destaca sua capacidade de lidar com uma ampla gama de tarefas, desde problemas de nível de ensino médio até desafios de nível profissional.
Excelência em Exames de STEM A habilidade do modelo se estende a exames de STEM, com desempenho notável no exame de matemática húngaro e no exame de física GRE. No exame de matemática húngaro, Inflection-2.5 demonstra sua aptidão matemática, utilizando o prompt de few-shot e o formato fornecido, permitindo facilidade de reprodutibilidade.
No exame de física GRE, um exame de admissão de pós-graduação em física, Inflection-2.5 atinge o 85º percentil dos participantes humanos em maj@8 (voto majoritário em 8), solidificando sua posição como um contendente formidável no reino da resolução de problemas de física. Além disso, o modelo se aproxima da pontuação máxima em maj@32, exibindo sua capacidade de lidar com problemas de física complexos com notável precisão.
Melhorando a Experiência do Usuário Inflection-2.5 não apenas mantém a personalidade empática e os padrões de segurança de Pi, mas eleva seu status como uma AI pessoal versátil e inestimável em uma ampla gama de tópicos. Desde discutir eventos atuais até buscar recomendações locais, estudar para exames, codificar e até conversas casuais, Pi, impulsionado por Inflection-2.5, promete uma experiência do usuário enriquecida.
Com as poderosas capacidades de Inflection-2.5, os usuários estão interagindo com Pi em uma ampla gama de tópicos como nunca antes. A capacidade do modelo de lidar com tarefas complexas, combinada com sua personalidade empática e capacidades de busca na web em tempo real, garante que os usuários recebam informações e orientações de alta qualidade e atualizadas.
Adoção e Engajamento do Usuário O impacto da integração de Inflection-2.5 em Pi já é evidente nos métricos de sentimento, engajamento e retenção do usuário. A Inflection AI testemunhou um aceleramento significativo no crescimento orgânico de usuários, com um milhão de usuários ativos diários e seis milhões de usuários ativos mensais trocando mais de quatro bilhões de mensagens com Pi.
Em média, as conversas com Pi duram 33 minutos, com uma em cada dez durando mais de uma hora a cada dia. Além disso, aproximadamente 60% das pessoas que interagem com Pi em uma semana determinada retornam na semana seguinte, mostrando uma maior aderência mensal do que os principais concorrentes no campo.
Detalhes Técnicos e Transparência em Benchmarks
Em linha com o compromisso da Inflection AI com a transparência e a reprodutibilidade, a empresa forneceu resultados técnicos abrangentes e detalhes sobre o desempenho de Inflection-2.5 em vários benchmarks da indústria.
Por exemplo, na versão corrigida do conjunto de dados MT-Bench, que aborda problemas com soluções de referência incorretas e premissas defeituosas no conjunto de dados original, Inflection-2.5 demonstra desempenho de acordo com as expectativas com base em outros benchmarks.
A Inflection AI também avaliou Inflection-2.5 nos benchmarks HellaSwag e ARC-C, benchmarks de senso comum e ciência relatados por uma ampla gama de modelos, e os resultados mostram um desempenho sólido nesses benchmarks saturantes.
É importante notar que, embora as avaliações fornecidas representem o modelo que impulsiona Pi, a experiência do usuário pode variar ligeiramente devido a fatores como o impacto da recuperação da web (não usada nos benchmarks), a estrutura do prompt de few-shot e outras diferenças de produção.
Conclusão
Inflection-2.5 representa um salto significativo no campo dos grandes modelos de linguagem, rivalizando as capacidades de líderes da indústria como GPT-4 e Gemini, enquanto utiliza apenas uma fração dos recursos de computação. Com seu desempenho impressionante em uma ampla gama de benchmarks, particularmente em áreas de STEM, codificação e matemática, Inflection-2.5 se posicionou como um contendente formidável no cenário de AI.
A integração de Inflection-2.5 em Pi, a assistente de AI pessoal da Inflection AI, promete uma experiência do usuário enriquecida, combinando capacidade bruta com personalidade empática e padrões de segurança. À medida que a Inflection AI continua a impulsionar os limites do que é possível com LLMs, a comunidade de AI aguarda ansiosamente a próxima onda de inovações e avanços dessa empresa pioneira.














