Entrevistas
Isaiah N. Granet, Co-Fundador e CEO da Bland – Série de Entrevistas

Isaiah N. Granet, Co-Fundador e CEO da Bland, é um fundador de startups e engenheiro cujo histórico combina execução técnica com experiência empresarial precoce e trabalho de impacto social de longo prazo. Antes de lançar sua atual empresa, ele participou do Z Fellows e do Y Combinator, construiu experiência em engenharia na Lantern e fundou o San Diego Chill, uma organização sem fins lucrativos que arrecadou mais de 2,5 milhões de dólares para ajudar crianças com deficiências de desenvolvimento a acessar esportes, ganhando reconhecimento nacional e continuando até hoje com seu envolvimento no nível da diretoria.
Bland está focada em construir infraestrutura para chamadas de voz impulsionadas por IA, permitindo que as empresas implantem agentes de voz que possam lidar com suporte ao cliente, vendas e fluxos de trabalho operacionais em escala. A plataforma é projetada para substituir ou complementar centros de chamadas tradicionais, oferecendo interações de voz programáveis, responsividade em tempo real e integrações profundas com sistemas de negócios, posicionando-se como uma camada fundamental na forma como as empresas automatizam a comunicação com os clientes.
Você fundou o San Diego Chill como um adolescente para criar acesso inclusivo a esportes para crianças com deficiências de desenvolvimento, muito antes de entrar no Y Combinator ou lançar a Bland. Como essa experiência precoce em construir uma organização do mundo real influenciou a forma como você abordou a fundação de uma empresa de IA de voz que agora se situa entre as empresas e seus clientes?
Muito do meu trabalho e vida tem se concentrado em construir. Desde jovem, eu tive esse desejo constante de trazer coisas à vida. Uma vez que uma ideia ou uma crença sobre o mundo surge em minha mente, torna-se impossível para mim ignorá-la. Construir o San Diego Chill não apenas me ensinou a criar e administrar uma organização, mas também me ensinou sobre o impacto que nossas ações podem ter sobre os outros. Ser capaz de retribuir criando uma organização que de outra forma nunca teria existido é algo profundamente gratificante. As lições e valores que aprendi com o Chill me acompanham todos os dias.
Depois de passar pelo YC em 2023, o que o convenceu de que a infraestrutura de voz empresarial ainda estava fundamentalmente quebrada o suficiente para justificar a construção de um sistema de ponta a ponta em vez de camadas de LLMs sobre ferramentas de IVR legadas?
Pense na última vez que você usou um chatbot de banco. Você provavelmente esperou mais do que deveria, obteve uma resposta que não abordou o que você realmente perguntou e acabou ligando de qualquer forma. Então, uma voz robótica o levou por um menu de opções que você não queria, e pressionar 0 não fez nada útil.
Bancos gastaram bilhões para tornar essa experiência possível, e chatbots ainda estão em último lugar em satisfação do cliente, com 29%. Menos do que e-mail. Menos do que centros de chamadas, sobre os quais todos já se queixam.
Essa tem sido a dinâmica por duas décadas. Empresas tentando manter os clientes longe de seus funcionários. Clientes tentando chegar a uma pessoa. Nenhum dos lados está ganhando.
O problema não é que as empresas não queiram consertar isso. Elas simplesmente não podem contratar funcionários para fornecer uma boa experiência em escala. Um centro de chamadas que lida com um milhão de chamadas por mês é uma operação cara e difícil, e a qualidade é inconsistentemente ruim quase por definição.
O que mudou é que a IA finalmente torna possível resolver chamadas em vez de apenas roteá-las ou desviá-las. Não árvores de telefone. Não música de espera. Um agente que entende o que o cliente está pedindo e lida com isso.
Mas isso só funciona se o sistema for construído para voz em tempo real desde o início. Quando você camada LLMs sobre ferramentas de IVR legadas ou costura serviços de terceiros, a latência se infiltra e a confiabilidade cai. As conversas se desintegram.
É por isso que nos concentramos em construir a infraestrutura de ponta a ponta. A voz só funciona se parecer imediata e natural. Se não, o cliente desliga.
Bland tomou a medida incomum de construir e hospedar sua própria pilha de TTS, inferência e transcrição internamente. Quais foram as compensações que você viu ao confiar em APIs de terceiros que finalmente o levaram a possuir a camada completa de infraestrutura de voz?
Cada camada que você terceiriza adiciona latência e adiciona risco.
A maioria das plataformas de IA de voz são revendedores. Eles pegam transcrição de terceiros, adicionam um modelo de terceiros, roteiam por TTS de terceiros e entregam o resultado. Isso pode funcionar em um demo controlado. Raramente se sustenta quando o volume de chamadas dispara ou algo na corrente vai mal.
Existe também um problema de dados. Fornecedores de modelos de fundação, como a OpenAI, usaram dados de clientes para treinar modelos. Eles dizem que licenças empresariais são diferentes. Talvez sejam. Mas essa incerteza é suficiente para fazer com que muitas equipes de segurança e conformidade fiquem desconfortáveis.
Quando você hospeda a pilha completa — transcrição, inferência, TTS, orquestração —, você controla cada milissegundo e cada atualização de modelo. Os dados do cliente permanecem dentro do ecossistema do cliente. Não toca em uma pipeline de treinamento de terceiros, não passa por infraestrutura que não pode ser auditada e não se move a menos que o cliente decida que deve.
Você pode dar a cada cliente empresarial infraestrutura dedicada, de modo que um pico de outra empresa nunca toque no desempenho deles. E quando algo quebra, você pode realmente consertá-lo em vez de esperar por um fornecedor de um fornecedor.
Para indústrias regulamentadas, alguns clientes precisam da pilha completa em seu próprio VPC ou local. Isso só é possível se o fornecedor realmente possui o que está implantando.
A automação tradicional de centro de contato se concentrou fortemente em desviar chamadas de suporte simples. Por que você decidiu priorizar interações de cliente complexas e de longa cauda em vez de otimizar para automação baseada em volume primeiro?
A automação tradicional de centro de contato se concentrou fortemente em desviar chamadas de suporte simples. Por que você priorizou interações complexas e de longa cauda em vez de começar com casos de uso de alto volume?
Nós tomamos a abordagem oposta. Se podemos lidar de forma confiável com as chamadas mais complexas e sensíveis, tudo o mais se torna direto. O objetivo não é construir demos, é entregar resolução de chamada completa e autônoma em escala. Isso exige sistemas de baixa latência e alta confiabilidade que possam gerenciar os casos de bordo que realmente definem conversas de clientes reais.
Seus agentes estão sendo cada vez mais integrados a CRMs e bancos de dados operacionais para resolver chamadas de ponta a ponta. Como a automação de voz nativa muda a arquitetura de fluxos de trabalho empresariais em comparação com copilotos baseados em chat?
Sistemas legados muitas vezes não conversam entre si. CRMs, ferramentas de agendamento e plataformas de faturamento são isoladas. Sem acesso a esses sistemas, um agente de voz pode responder a perguntas genéricas e não muito mais.
Ele não pode procurar uma conta, atualizar um registro ou agendar um compromisso. Ele coleta informações e as passa adiante. Enquanto isso, representantes humanos gastam tempo em trabalho que não deveria tocar em uma pessoa: registrar notas de chamada, agendar compromissos manualmente, extrair relatórios para descobrir quem precisa de um follow-up.
A integração profunda é o que torna a resolução de ponta a ponta possível. Sem isso, você automatizou a saudação, não a chamada.
A recente demonstração de clone de voz do Soulja Boy destacou como agentes conversacionais podem se estender além de operações internas para experiências de marca. Você vê agentes de voz empresariais evoluindo para representantes digitais que operam continuamente em canais de vendas, suporte e marketing?
Absolutamente. Nós vemos um mundo em que cada cliente tem uma relação pessoal com seus negócios favoritos e essenciais. O importante é que a IA não é apenas “divertida”, mas capaz de realmente resolver problemas complexos.
A voz em tempo real introduz latência, alucinação e desafios de identidade que não existem em implantações de IA baseadas em texto. Quais foram as restrições técnicas mais difíceis que você encontrou ao construir agentes que precisam responder em menos de um segundo enquanto mantêm a precisão conversacional?
Latência. É onde a maioria dos demos morre.
Se um chatbot leva três segundos para responder, o usuário espera. Se um agente de voz pausa após você terminar de falar, a conversa já está quebrada. As respostas precisam voltar em menos de 400 milissegundos. A maioria das plataformas não consegue chegar lá porque estão costurando múltiplos serviços de terceiros, cada um adicionando seu próprio atraso.
Mas a latência é apenas parte disso. Chamadas de clientes reais são bagunçadas de maneiras que os demos nunca capturam. Pessoas interrompem no meio da frase. Ruído de fundo entra. Os chamadores mudam de idioma. Pedidos são vagos. A IA de voz que se sustenta na produção lida com interrupções sem perder o contexto, se adapta quando as conversas saem do roteiro e faz isso sem soar como se estivesse bufferizando.
Os clientes não comparam a IA de voz com outros bots. Eles a comparam com falar com uma pessoa. Esse é o padrão.
Há uma crescente escrutínio sobre como sistemas de IA que soam humanos se representam durante interações. Como as empresas devem pensar sobre a transparência ao implantar agentes conversacionais que podem ser indistinguíveis de funcionários humanos?
Nós acreditamos firmemente na honestidade e transparência para o usuário final. Embora alguma regulação seja burocrática e sufocante, nenhuma forma de engano é aceitável. Trabalhamos com empresas para desenvolver experiências transparentes e baseadas na confiança com o cliente.
À medida que os agentes de IA começam a lidar com milhões de interações de cliente simultâneas, quais desafios operacionais tendem a surgir primeiro quando as empresas mudam de implantações de piloto para implantações em escala de produção?
Algumas coisas importam na prática. A primeira é a arquitetura de prompt modular. Prompts monolíticos são quase impossíveis de depurar. Quando uma chamada dá errado, você precisa isolar exatamente onde e por que aconteceu, não olhar para uma parede de instruções tentando descobrir qual linha causou o problema.
A observabilidade completa também importa muito. Resumos pós-chamada não são suficientes. Você precisa de visibilidade em tempo real sobre o que o agente está fazendo em cada ponto de cada interação.
Guardrails também são essenciais, especialmente em indústrias regulamentadas. O agente precisa permanecer dentro da política. Isso não é opcional. E se não fizer, precisa haver uma queda graciosa.
Finalmente, há o gerenciamento de conhecimento. O agente precisa ter acesso a dados proprietários, como produtos, políticas e procedimentos. A plataforma também deve surface lacunas de conhecimento automaticamente à medida que elas aparecem em chamadas reais, não semanas depois, após um cliente reclamar.
Olhando para o futuro, você acredita que os agentes de voz empresariais permanecerão como ferramentas de tarefa específica ou evoluirão para agentes de IA generalizados capazes de gerenciar processos de negócios inteiros iniciados por conversa?
Se eu apenas tivesse a resposta! Acho que os agentes de voz evoluirão em toda a pilha de negócios, mas é improvável ver um negócio inteiro sendo executado por um agente de voz. Dito isso, acredito que os humanos serão capazes de obter serviço instantâneo, preciso e mais abrangente de agentes de IA do que obtêm hoje. Na verdade, acreditamos que mais chamadas telefônicas acontecerão quando isso ocorrer. Não menos.
Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar Bland.












