Entrevistas
Rob May, CEO e cofundador da NeuroMetric – Série de entrevistas

Rob May, CEO e cofundador da NeuroMetric, é um empreendedor e investidor experiente com uma longa trajetória em computação em nuvem, startups de IA e capital de risco, atualmente liderando a Neurometric AI e também atuando como Diretor Administrativo na Empreendimentos HalfCourt, onde apoiou mais de 100 empresas de tecnologia. Além de suas funções operacionais e de investimento, ele cofundou a AI Innovators Community e anteriormente construiu e vendeu empresas como a Backupify, refletindo sua vasta experiência em diversos ciclos tecnológicos. Ele também é amplamente conhecido por sua longa trajetória... Investir em IA newsletter, que ele começou a escrever há mais de uma década para analisar as tendências emergentes da IA, estratégias de investimento e mudanças de mercado, e que desde então evoluiu para uma plataforma para insights mais profundos sobre o cenário da IA em rápida evolução.
IA Neurométrica A Neurometric se concentra em resolver um dos desafios mais críticos da inteligência artificial atual: o custo e a eficiência da inferência em larga escala. A plataforma avalia dinamicamente as cargas de trabalho de IA e aplica estratégias de otimização — como a combinação de modelos menores e especializados com técnicas avançadas de computação em tempo de teste — para melhorar o desempenho e, ao mesmo tempo, reduzir drasticamente os custos, permitindo que as empresas obtenham um melhor retorno sobre o investimento (ROI) em suas implementações de IA. Ao orquestrar as cargas de trabalho e adaptar o uso do modelo a tarefas específicas, a Neurometric visa tornar os sistemas de IA significativamente mais rápidos e acessíveis, posicionando-se na interseção entre infraestrutura de IA, eficiência e escalabilidade no mundo real, à medida que as organizações passam da experimentação para a produção.
Você fundou e liderou diversas empresas de IA, investiu em mais de 100 startups por meio da HalfCourt Ventures e, anteriormente, criou e vendeu a Backupify. Como essas experiências moldaram sua perspectiva sobre onde o valor duradouro é criado na IA hoje?
Acredito que a maioria dos investidores e empreendedores está em busca de vantagens competitivas de curto prazo – coisas que parecem lacunas óbvias no mercado hoje, mas que serão rapidamente preenchidas por empresas já existentes. A inteligência artificial transformará a gestão de uma empresa em uma série de decisões probabilísticas. As empresas nas quais investir, ou construir, são aquelas que têm as melhores estimativas gerais dessas probabilidades. Às vezes, isso virá da integração vertical e, outras vezes, da expansão horizontal – depende do mercado.
Em seu boletim informativo Investing in AI, você argumentou que os modelos estão se tornando cada vez mais intercambiáveis e que a verdadeira defesa se desloca para a camada de sistemas. Como seria, na prática, uma verdadeira "vantagem competitiva sistêmica"?
Uma verdadeira vantagem competitiva de um sistema possui três propriedades: ela se intensifica com o uso, é específica para o cliente e não pode ser replicada pela simples substituição por um modelo melhor.
A capacidade de defesa reside no que eu chamo de "Sistema de Contexto" — uma arquitetura integrada que conecta modelos fundamentais a tudo que torna uma empresa única: seus dados, seus fluxos de trabalho, seu conhecimento do domínio, seu histórico de decisões. O sistema captura sinais de cada interação — quais modelos têm sucesso em quais tarefas, onde a latência importa, quais padrões específicos da empresa emergem — e retroalimenta isso para se aprimorar.
A principal ideia é que isso cria um ciclo multiplicativo, não aditivo. Você não está apenas acumulando um registro pesquisável de decisões passadas. Você está gerando sinais de treinamento que produzem modelos especializados que melhoram o roteamento, o que captura dados mais valiosos. A vantagem competitiva aumenta a cada inferência.
Na prática, uma vantagem competitiva sustentável se manifesta como uma profunda integração de fluxos de trabalho, onde os custos de migração não estão relacionados a APIs, mas sim à reescrita da lógica de negócios. Significa um contexto proprietário que nenhum concorrente consegue replicar, pois foi gerado ao longo de meses de uso em produção dentro de uma empresa específica. E significa um ciclo contínuo de especialização, onde o sistema se torna significativamente melhor para... aquele cliente De maneiras que um provedor de modelo genérico jamais conseguirá.
A era dos modelos nos deu a capacidade bruta. A era dos sistemas é onde essa capacidade se transforma em valor real.
Como as empresas devem pensar em construir uma estratégia multimodelo, incluindo lógica de roteamento, caminhos de escalonamento e avaliação contínua, em vez de depender de um único modelo de fronteira?
A primeira coisa que as empresas precisam internalizar é que "simplesmente usar o melhor modelo" é uma estratégia ineficaz em grande escala. É o equivalente a submeter todas as consultas ao seu engenheiro mais experiente. É caro, é lento e — paradoxalmente — muitas vezes não produz os melhores resultados.
Isso nos leva ao que eu chamo de Fronteira Irregular da Inferência: o desempenho do modelo é específico para cada tarefa e imprevisível. Modelos de fronteira perdem para modelos menores e especializados em tarefas específicas o tempo todo. Já vimos sistemas compostos por múltiplos modelos atingirem 72.7% de precisão em tarefas de CRM, enquanto modelos de fronteira alcançaram 58%. A superfície de desempenho não se correlaciona perfeitamente com a quantidade de parâmetros. Portanto, a verdadeira questão não é "qual modelo é o melhor?", mas sim "qual modelo é o melhor para...". esta subtarefa específica? "
Essa reformulação é a base de uma estratégia multimodelo eficaz. Eis como eu diria às empresas para pensarem nisso em três camadas.
Lógica de roteamento Comece mapeando seu cenário de inferência. Catalogue cada ponto do seu sistema onde uma chamada LLM é feita e, para cada um, documente o tipo de tarefa, a complexidade de entrada/saída, os requisitos de latência, o limite de precisão e o volume de chamadas. Isso lhe dará um mapa de calor. Você descobrirá rapidamente que a maior parte do seu volume é de trabalho de alta frequência e escopo restrito — classificação, extração de entidades, roteamento de intenções, geração de modelos — onde um modelo menor e mais bem ajustado iguala ou supera o modelo de fronteira a uma fração do custo. Reserve suas dispendiosas chamadas de fronteira para as tarefas que realmente exigem raciocínio complexo. Um agente que faz 50 chamadas por tarefa não precisa do GPT-4 para todas as 50.
Caminhos de escalada Trata-se de construir alternativas inteligentes, não apenas de failover. O sistema precisa reconhecer quando um modelo menor está retornando resultados de baixa confiança e recorrer a um modelo mais robusto — ou a uma combinação completamente diferente de modelo e estratégia. É aqui que entram as estratégias de computação em tempo de teste. Às vezes, a resposta certa não é um modelo maior — é o mesmo modelo com algoritmos como chain of thought (cadeia de raciocínio), beam search (busca em feixe) ou best-of-N sampling (amostragem best-of-N). A configuração ideal varia não apenas de acordo com o modelo, mas também com o algoritmo de raciocínio associado a ele.
Avaliação contínua A seleção de modelos é o aspecto que a maioria das empresas ignora completamente, e é aí que reside a verdadeira capacidade de defesa. Não se trata de uma decisão pontual, mas sim de um problema de otimização contínua. Novos modelos são lançados constantemente, seus casos de uso evoluem e o desempenho se degrada de maneiras que ocorrem silenciosamente. Você não saberá que seu chatbot de atendimento ao cliente forneceu uma resposta 40% pior porque você usou o modelo errado para aquele tipo de consulta — você apenas verá a rotatividade de clientes três meses depois. Você precisa de uma infraestrutura que meça continuamente o que realmente funciona em diferentes combinações de modelo e tarefa e ajuste o roteamento com base em dados reais de desempenho, não em benchmarks.
A razão pela qual a maioria das empresas não fez essa transição é que ninguém é demitido por escolher o modelo de vanguarda — é o equivalente a "ninguém é demitido por comprar IBM" na IA. O ecossistema de fornecedores impulsiona a vanguarda porque é aí que estão as margens de lucro. E a infraestrutura de orquestração necessária para executar uma arquitetura multimodelos — lógica de roteamento, mecanismos de fallback, gerenciamento de modelos, observabilidade — simplesmente não existe na maioria das empresas. Elas estão presas em um ótimo local onde os custos de mudança e a incerteza dos modelos multimodelos parecem maiores do que o gasto excessivo contínuo com inferência de vanguarda.
Quais são os maiores erros que você vê as empresas cometerem ao passar de projetos-piloto de IA para sistemas de nível de produção?
Eles presumem que suas escolhas podem ser estáticas e duradouras. Na realidade, cada camada da pilha tecnológica da IA está mudando rapidamente. As empresas precisam tomar decisões que ofereçam opções e flexibilidade.
Em que tipos de fluxos de trabalho você observou que modelos menores e específicos para tarefas superam grandes modelos de fronteira, e por que isso é importante estrategicamente?
Observamos isso em praticamente todas as tarefas comuns do dia a dia — desde contabilidade básica e sumarização de textos até a extração de entidades de diversos documentos. Analisamos os SLMs (Modelos de Liderança de Sistemas) em centenas de tarefas e eles quase sempre se mostram mais eficazes quando o problema é estruturado corretamente.
Você escreveu sobre a redução do custo marginal da implementação de IA em novos casos de uso. Como isso altera a economia de longo prazo da adoção de IA para empresas?
A narrativa da bolha pressupõe que a receita da IA exige investimento proporcional em P&D para novos modelos. Não exige. Os modelos já estão construídos. A infraestrutura existe. Cada caso de uso adicional é apenas um estímulo, uma conexão de dados, talvez algum ajuste fino — não mais um ciclo de treinamento de US$ 100 milhões. A curva de custo marginal se inclina para baixo à medida que a plataforma amadurece.
Isso é o oposto das ferrovias ou das telecomunicações, onde cada novo quilômetro de trilho era caro. Em IA, construir o motor era caro. Conectar as coisas para O mecanismo é barato e está ficando cada vez mais barato — os custos de inferência caíram cerca de 1,000 vezes em dois anos. A questão para as empresas não é se a IA compensa. É quantos casos de uso podem ser implementados na mesma infraestrutura antes que a curva de receita supere a curva de custos.
Que sinais as equipes técnicas devem usar para determinar quando trocar de modelo, fazer ajustes ou criar modelos especializados para tarefas pequenas?
Os sinais não são necessariamente técnicos. Eles são mais voltados para desempenho ou economia. Por exemplo, trocar um modelo, ajustar um modelo existente ou criar um SLM personalizado podem funcionar. A decisão depende se você está otimizando para latência ou custo, com que frequência a tarefa é executada e quanto tempo leva para criar e implantar cada solução.
Como projetar mecanismos de proteção, monitoramento e governança de forma que realmente se adaptem ao uso, em vez de se tornarem um gargalo?
O erro que a maioria das empresas comete é tratar a governança como um ponto de controle — uma camada de revisão manual acoplada aos fluxos de trabalho de IA. Isso não é escalável. Torna-se o gargalo no momento em que o uso aumenta.
A governança precisa estar incorporada na própria camada de orquestração. Quando sua infraestrutura de roteamento já avalia cada chamada de inferência — qual modelo, qual tarefa, qual nível de confiança — adicionar salvaguardas representa um custo marginal, não um novo sistema. A mesma camada que decide qual modelo processará uma consulta pode impor políticas: filtragem de informações pessoais identificáveis (PII) antes da chamada, validação da saída depois, trilhas de auditoria capturadas automaticamente, alocação de custos por departamento.
A principal conclusão é que as empresas não falham. dentro Sistemas de IA. Eles falham. entre neles — nas transições, escalonamentos e exceções. Uma governança escalável se assemelha a um plano de controle que torna cada ação de IA segura, auditável e repetível como um subproduto da execução, e não como um obstáculo a ela.
Você comparou o cenário atual da IA à transição dos mainframes para os PCs. O que essa descentralização significa para as startups que desenvolvem na camada de sistemas?
Atualmente, estamos na fase centralizada da IA. Grandes modelos de vanguarda centralizados, como os da OpenAI, Anthropic e Google, foram necessários para concentrar esforços e demonstrar o potencial da IA. Essa fase funcionou. As capacidades são bem compreendidas. Mas, assim como a computação não permaneceu centralizada, a IA também não permanecerá. Estamos entrando na era do PC — um ecossistema descentralizado onde modelos menores e especializados são executados mais próximos do trabalho.
Os dados de gastos já refletem isso. O investimento em IA empresarial agora está dividido quase igualmente entre infraestrutura e aplicações, e a participação das aplicações está crescendo mais rapidamente. A expansão é lateral — abrangendo RH, jurídico, marketing, operações e finanças — e não vertical, em direção a modelos maiores.
Para startups que atuam na camada de sistemas, esta é a oportunidade de uma geração. Em um mundo centralizado, o provedor do modelo captura a maior parte do valor. Em um mundo descentralizado, o valor migra para as empresas que resolvem a orquestração, o roteamento, a avaliação e a especialização — os desafios operacionais da implantação de um ecossistema de modelos heterogêneos em escala.
Minha projeção é que aproximadamente 25% da inferência de IA exigirá modelos de ponta. Essas empresas ficarão bem — isso representa alguns trilhões em mercado endereçável total (TAM). Mas 75% rodarão em modelos de código aberto e pequenos modelos especializados para tarefas específicas. Treinamos um modelo com 4 bilhões de parâmetros que superou modelos de ponta em uma tarefa específica de CRM, e é tão barato de executar que é praticamente gratuito. Esse é o futuro — e ele precisa de uma camada de sistemas completamente nova para gerenciá-lo.
A analogia se mantém válida do início ao fim: os fornecedores de mainframes se saíram bem, mas a verdadeira criação de riqueza aconteceu no ecossistema de PCs. O mesmo ocorrerá na IA.
Olhando para o futuro, daqui a cinco anos, você acredita que os fornecedores de modelos de vanguarda capturarão a maior parte do valor, ou a maior parte do impacto econômico virá da orquestração, otimização e sistemas aplicados construídos em torno deles?
Acredito que o mercado de inferência de IA será um dos maiores da história. Isso significa que os laboratórios de modelagem de ponta terão um desempenho incrível e ainda haverá enormes oportunidades para as empresas que se desenvolverem em torno deles. Quando se tem mercados de trilhões de dólares, a solução de pequenos casos extremos nesses mercados pode se transformar em empresas bilionárias.
Obrigado pela ótima entrevista, os leitores que desejam saber mais devem visitar IA Neurométricaou eles deveriam se inscrever no Investir em IA newsletter.












