Entrevistas
Lin Qiao, CEO & Co-Founder of Fireworks AI – Série de Entrevistas

Lin Qiao, foi anteriormente chefe do PyTorch da Meta e é co-fundador e CEO da Fireworks AI. Fireworks AI é uma plataforma de produção de IA construída para desenvolvedores, Fireworks parceira com os principais pesquisadores de IA gerativa do mundo para servir os melhores modelos, nas velocidades mais rápidas. Fireworks AI recentemente levantou um $25M Série A.
O que o atraiu inicialmente para a ciência da computação?
Meu pai era um engenheiro mecânico muito sênior em um estaleiro, onde ele construía navios cargueiros do zero. Desde muito jovem, aprendi a ler os ângulos e medidas precisos dos projetos de navios, e eu amava isso.
Eu estava muito interessado em STEM a partir do ensino fundamental – tudo em matemática, física e química eu devorava. Uma das minhas tarefas do ensino médio foi aprender a programar em BASIC, e eu codifiquei um jogo sobre uma cobra que come sua própria cauda. Depois disso, eu sabia que a ciência da computação estava no meu futuro.
Enquanto estava na Meta, você liderou mais de 300 engenheiros de classe mundial em frameworks e plataformas de IA, onde você construiu e implantou o Caffe2 e, posteriormente, o PyTorch. Quais foram algumas das suas principais conclusões dessa experiência?
As grandes empresas de tecnologia, como a Meta, estão sempre cinco ou mais anos à frente da curva. Quando eu me juntei à Meta em 2015, estávamos no início de nossa jornada de IA – fazendo a transição de CPUs para GPUs. Tivemos que projetar a infraestrutura de IA do zero. Modelos como o Caffe2 foram revolucionários quando foram criados, mas a IA evoluiu tão rapidamente que eles rapidamente se tornaram obsoletos. Desenvolvemos o PyTorch e todo o sistema em torno dele como uma solução.
O PyTorch é onde eu aprendi sobre os principais obstáculos que os desenvolvedores enfrentam na corrida para construir a IA. O primeiro desafio é encontrar uma arquitetura de modelo estável e confiável que seja de baixa latência e flexível, para que os modelos possam ser escalados. O segundo desafio é o custo total de propriedade, para que as empresas não fiquem falidas tentando crescer seus modelos.
Meu tempo na Meta me mostrou o quão importante é manter modelos e frameworks como o PyTorch de código aberto. Isso incentiva a inovação. Nós não teríamos crescido tanto no PyTorch sem as oportunidades de iteração de código aberto. Além disso, é impossível estar por dentro de todas as últimas pesquisas sem colaboração.
Pode discutir o que o levou a lançar a Fireworks AI?
Estou na indústria de tecnologia há mais de 20 anos, e vi onda após onda de mudanças no nível da indústria – desde a nuvem até os aplicativos móveis. Mas essa mudança de IA é um realinhamento tectônico completo. Eu vi muitas empresas lutando com essa mudança. Todos queriam se mover rapidamente e colocar a IA em primeiro lugar, mas eles careciam da infraestrutura, recursos e talentos para tornar isso real. Quanto mais eu conversava com essas empresas, mais eu percebia que eu podia resolver essa lacuna no mercado.
Eu lancei a Fireworks AI tanto para resolver esse problema quanto para servir como uma extensão do incrível trabalho que realizamos no PyTorch. Isso até inspirou nosso nome! O PyTorch é a tocha que segura o fogo – mas queremos que esse fogo se espalhe por todos os lugares. Daí: Fireworks.
Eu sempre fui apaixonado por democratizar a tecnologia e torná-la acessível e simples para os desenvolvedores inovarem, independentemente de seus recursos. É por isso que temos uma interface tão amigável e sistemas de suporte fortes para empoderar os construtores a trazer suas visões à vida.
Pode discutir o que é IA centrada no desenvolvedor e por que isso é tão importante?
É simples: “centrada no desenvolvedor” significa priorizar as necessidades dos desenvolvedores de IA. Por exemplo: criar ferramentas, comunidades e processos que tornem os desenvolvedores mais eficientes e autônomos.
Plataformas de IA centradas no desenvolvedor, como a Fireworks, devem se integrar aos fluxos de trabalho e pilhas de tecnologia existentes. Elas devem tornar simples para os desenvolvedores experimentar, cometer erros e melhorar seu trabalho. Elas devem encorajar o feedback, porque são os próprios desenvolvedores que entendem o que precisam para ter sucesso. Por fim, é mais do que apenas ser uma plataforma. É sobre ser uma comunidade – uma onde os desenvolvedores colaboradores possam empurrar os limites do que é possível com a IA.
A plataforma GenAI que você desenvolveu é um avanço significativo para os desenvolvedores que trabalham com grandes modelos de linguagem (LLMs). Pode elaborar sobre os recursos e benefícios exclusivos de sua plataforma, especialmente em comparação com as soluções existentes?
Nossa abordagem como uma plataforma de produção de IA é única, mas alguns de nossos melhores recursos são:
Inferência eficiente – Nós projetamos a Fireworks AI para eficiência e velocidade. Os desenvolvedores que usam nossa plataforma podem executar seus aplicativos LLM com a latência mais baixa possível e custo. Nós alcançamos isso com as últimas técnicas de otimização de modelo e serviço, incluindo cache de prompt, sharding adaptável, quantização, batching contínuo, FireAttention e muito mais.
Suporte acessível para modelos ajustados LoRA – Nós oferecemos suporte acessível para modelos ajustados de baixo nível (LoRA) por meio de multi-locatário em modelos base. Isso significa que os desenvolvedores podem experimentar muitos diferentes casos de uso ou variações do mesmo modelo sem quebrar o banco.
Interfaces e APIs simples – Nossas interfaces e APIs são diretas e fáceis para os desenvolvedores integrarem em seus aplicativos. Nossas APIs também são compatíveis com a OpenAI para facilitar a migração.
Modelos prontos para uso e modelos ajustados – Nós oferecemos mais de 100 modelos pré-treinados que os desenvolvedores podem usar prontamente. Nós cobrimos os melhores LLMs, modelos de geração de imagens, modelos de incorporação, etc. Mas os desenvolvedores também podem escolher hospedar e servir seus próprios modelos personalizados. Nós também oferecemos serviços de ajuste de autoatendimento para ajudar os desenvolvedores a personalizar esses modelos personalizados com seus dados proprietários.
Colaboração da comunidade: Nós acreditamos na ética de código aberto de colaboração da comunidade. Nossa plataforma encoraja (mas não exige) que os desenvolvedores compartilhem seus modelos ajustados e contribuam para um banco crescente de ativos e conhecimentos de IA. Todos se beneficiam do crescimento de nossa expertise coletiva.
Pode discutir a abordagem híbrida que é oferecida entre a paralelização de modelos e a paralelização de dados?
A paralelização de modelos de aprendizado de máquina melhora a eficiência e a velocidade do treinamento de modelos e ajuda os desenvolvedores a lidar com modelos maiores que um único GPU não pode processar.
A paralelização de modelos envolve dividir um modelo em várias partes e treinar cada parte em processadores separados. Por outro lado, a paralelização de dados divide os conjuntos de dados em subconjuntos e treina um modelo em cada subconjunto ao mesmo tempo em processadores separados. Uma abordagem híbrida combina esses dois métodos. Modelos são divididos em partes separadas, que são treinadas em subconjuntos diferentes de dados, melhorando a eficiência, escalabilidade e flexibilidade.
A Fireworks AI é usada por mais de 20.000 desenvolvedores e atualmente está servindo mais de 60 bilhões de tokens por dia. Quais desafios você enfrentou ao escalar suas operações para esse nível, e como você os superou?
Eu serei honesto, houve muitas montanhas altas para cruzar desde que fundamos a Fireworks AI em 2022.
Nossos clientes primeiro nos procuraram em busca de suporte de baixa latência porque estavam construindo aplicativos para consumidores, prosumidores ou outros desenvolvedores – todas as audiências que precisam de soluções rápidas. Então, quando os aplicativos de nossos clientes começaram a crescer rapidamente, eles perceberam que não podiam pagar os custos típicos associados a essa escala. Eles então nos pediram para ajudar a reduzir o custo total de propriedade (TCO), o que fizemos. Então, nossos clientes queriam migrar da OpenAI para modelos de código aberto, e eles nos pediram para fornecer qualidade igual ou até melhor do que a OpenAI. Nós fizemos isso acontecer também.
Cada etapa na evolução de nosso produto foi um problema desafiador para resolver, mas significou que as necessidades de nossos clientes verdadeiramente moldaram a Fireworks no que ela é hoje: um motor de inferência de velocidade da luz com baixo TCO. Além disso, oferecemos uma variedade de modelos de alta qualidade, prontos para uso, para escolher, ou serviços de ajuste para os desenvolvedores criarem os seus próprios.
Com os avanços rápidos em IA e aprendizado de máquina, as considerações éticas são mais importantes do que nunca. Como a Fireworks AI aborda as preocupações relacionadas a viés, privacidade e uso ético da IA?
Eu tenho duas filhas adolescentes que usam aplicativos de genAI, como o ChatGPT, frequentemente. Como mãe, eu me preocupo com elas encontrando conteúdo enganoso ou inapropriado, porque a indústria está apenas começando a lidar com o problema crítico da segurança do conteúdo. A Meta está fazendo muito com o projeto Purple Llama, e os novos modos SD3 da Stability AI são ótimos. Ambas as empresas estão trabalhando arduamente para trazer segurança para seus novos modelos Llama3 e SD3 com múltiplas camadas de filtros. O modelo de segurança de entrada-saída, Llama Guard, obtém um bom uso em nossa plataforma, mas sua adoção não está em par com outros LLMs ainda. A indústria como um todo ainda tem um longo caminho a percorrer para trazer segurança de conteúdo e ética de IA para o primeiro plano.
Nós, na Fireworks, nos importamos profundamente com a privacidade e a segurança. Nós somos compatíveis com o HIPAA e o SOC2, e oferecemos conectividade VPC e VPN seguras. As empresas confiam na Fireworks com seus dados e modelos proprietários para construir sua vantagem competitiva.
Qual é sua visão para como a IA evoluirá?
Assim como o AlphaGo demonstrou autonomia enquanto aprendia a jogar xadrez sozinho, eu acho que veremos aplicações de genAI se tornarem cada vez mais autônomas. Aplicativos automaticamente rotearão e direcionarão solicitações para o agente ou API certo para processar, e corrigirão o curso até obter a saída certa. E em vez de um modelo de chamada de função que chama de outros como controlador, veremos mais agentes auto-organizados, auto-coordenados trabalhando em uníssono para resolver problemas.
A inferência de velocidade da luz da Fireworks, os modelos de chamada de função e o serviço de ajuste pavimentaram o caminho para essa realidade. Agora é com os desenvolvedores inovadores para torná-la real.
Obrigado pela ótima entrevista, leitores que desejam aprender mais devem visitar Fireworks AI.












