toco Lin Qiao, CEO e cofundador da Fireworks AI - Série de entrevistas - Unite.AI
Entre em contato

Entrevistas

Lin Qiao, CEO e cofundador da Fireworks AI – Série de entrevistas

mm

Publicado

 on

Lin Qiao foi ex-chefe do PyTorch da Meta e é cofundador e CEO da Fireworks AI. IA de fogos de artifício é uma plataforma de IA de produção criada para desenvolvedores. O Fireworks faz parceria com os principais pesquisadores de IA generativa do mundo para fornecer os melhores modelos, nas velocidades mais rápidas. Fireworks AI levantou recentemente um $ 25M Série A.

Meu pai era um engenheiro mecânico sênior em um estaleiro, onde construiu navios de carga do zero. Desde muito jovem aprendi a ler os ângulos e medidas precisos das plantas dos navios e adorei.

Eu gostava muito de STEM desde o ensino médio - tudo que eu devorava matemática, física e química. Uma das minhas tarefas do ensino médio era aprender programação BASIC, e codifiquei um jogo sobre uma cobra comendo o rabo. Depois disso, eu sabia que a ciência da computação estava no meu futuro.

Grandes empresas de tecnologia como a Meta estão sempre cinco ou mais anos à frente da curva. Quando entrei na Meta em 2015, estávamos no início de nossa jornada de IA – fazendo a mudança de CPUs para GPUs. Tivemos que projetar a infraestrutura de IA desde o início. Modelos como o Caffe2 foram inovadores quando foram criados, mas a IA evoluiu tão rápido que rapidamente ficou desatualizada. Desenvolvemos o PyTorch e todo o sistema em torno dele como uma solução.

PyTorch foi onde aprendi sobre os maiores obstáculos que os desenvolvedores enfrentam na corrida para construir IA. O primeiro desafio é encontrar uma arquitetura de modelo estável e confiável, de baixa latência e flexível para que os modelos possam ser dimensionados. O segundo desafio é o custo total de propriedade, para que as empresas não vão à falência tentando fazer crescer os seus modelos.

Meu tempo na Meta me mostrou como é importante manter modelos e estruturas como o PyTorch de código aberto. Incentiva a inovação. Não teríamos crescido tanto quanto no PyTorch sem oportunidades de código aberto para iteração. Além disso, é impossível manter-se atualizado sobre todas as pesquisas mais recentes sem colaboração.

Estou no setor de tecnologia há mais de 20 anos e tenho visto onda após onda de mudanças no setor – da nuvem para aplicativos móveis. Mas esta mudança na IA é um realinhamento tectónico completo. Vi muitas empresas lutando com essa mudança. Todos queriam avançar rapidamente e colocar a IA em primeiro lugar, mas faltavam-lhes a infraestrutura, os recursos e o talento para que isso acontecesse. Quanto mais eu conversava com essas empresas, mais percebia que poderia resolver essa lacuna do mercado.

Lancei o Fireworks AI para resolver esse problema e servir como uma extensão do trabalho incrível que realizamos no PyTorch. Até inspirou nosso nome! PyTorch é a tocha que segura o fogo – mas queremos que o fogo se espalhe por toda parte. Daí: Fogos de artifício.

Sempre fui apaixonado por democratizar a tecnologia e torná-la acessível e simples para os desenvolvedores inovarem, independentemente de seus recursos. É por isso que temos uma interface tão fácil de usar e sistemas de suporte robustos para capacitar os construtores a dar vida às suas visões.

É simples: “centrado no desenvolvedor” significa priorizar as necessidades dos desenvolvedores de IA. Por exemplo: criar ferramentas, comunidades e processos que tornem os desenvolvedores mais eficientes e autônomos.

Plataformas de IA centradas no desenvolvedor, como o Fireworks, devem ser integradas aos fluxos de trabalho e pilhas de tecnologia existentes. Eles devem tornar mais simples para os desenvolvedores experimentarem, cometerem erros e melhorarem seu trabalho. Eles devem incentivar o feedback, porque são os próprios desenvolvedores que entendem o que precisam para ter sucesso. Por último, trata-se de mais do que apenas ser uma plataforma. Trata-se de ser uma comunidade – onde os desenvolvedores colaboradores podem ampliar os limites do que é possível com a IA.

Toda a nossa abordagem como plataforma de produção de IA é única, mas alguns dos nossos melhores recursos são:

Inferência eficiente – Projetamos a IA do Fireworks para eficiência e velocidade. Os desenvolvedores que usam nossa plataforma podem executar seus aplicativos LLM com a menor latência e custo possíveis. Conseguimos isso com as mais recentes técnicas de otimização de modelos e serviços, incluindo cache imediato, fragmentação adaptável, quantização, lote contínuo, FireAttention e muito mais.

Suporte acessível para modelos ajustados por LoRA – Oferecemos serviço acessível de modelos ajustados de adaptação de baixa classificação (LoRA) por meio de multilocação em modelos básicos. Isso significa que os desenvolvedores podem experimentar muitos casos de uso diferentes ou variações do mesmo modelo sem gastar muito.

Interfaces e APIs simples – Nossas interfaces e APIs são diretas e fáceis para os desenvolvedores integrarem em seus aplicativos. Nossas APIs também são compatíveis com OpenAI para facilitar a migração.

Modelos prontos para uso e modelos ajustados – Fornecemos mais de 100 modelos pré-treinados que os desenvolvedores podem usar imediatamente. Cobrimos os melhores LLMs, modelos de geração de imagens, modelos de incorporação, etc. Mas os desenvolvedores também podem optar por hospedar e servir seus próprios modelos personalizados. Também oferecemos serviços de ajuste fino de autoatendimento para ajudar os desenvolvedores a adaptar esses modelos personalizados com seus dados proprietários.

Colaboração comunitária: Acreditamos no espírito de código aberto da colaboração comunitária. Nossa plataforma incentiva (mas não exige) que os desenvolvedores compartilhem seus modelos aprimorados e contribuam para um banco crescente de ativos e conhecimento de IA. Todos se beneficiam com o aumento de nossa experiência coletiva.

A paralelização de modelos de aprendizado de máquina melhora a eficiência e a velocidade do treinamento de modelos e ajuda os desenvolvedores a lidar com modelos maiores que uma única GPU não consegue processar.

O paralelismo de modelo envolve dividir um modelo em múltiplas partes e treinar cada parte em processadores separados. Por outro lado, o paralelismo de dados divide os conjuntos de dados em subconjuntos e treina um modelo em cada subconjunto ao mesmo tempo em processadores separados. Uma abordagem híbrida combina esses dois métodos. Os modelos são divididos em partes separadas, cada uma treinada em diferentes subconjuntos de dados, melhorando a eficiência, escalabilidade e flexibilidade.

Serei honesto, houve muitas montanhas altas para cruzar desde que fundamos o Fireworks AI em 2022.

Nossos clientes nos procuraram pela primeira vez em busca de suporte de latência muito baixa porque estão criando aplicativos para consumidores, prossumidores ou outros desenvolvedores — todos públicos que precisam de soluções rápidas. Então, quando os aplicativos de nossos clientes começaram a crescer rapidamente, eles perceberam que não poderiam arcar com os custos típicos associados a essa escala. Eles então nos pediram ajuda para reduzir o custo total de propriedade (TCO), o que fizemos. Então, nossos clientes queriam migrar dos modelos OpenAI para OSS e nos pediram para fornecer qualidade igual ou até melhor que a OpenAI. Nós fizemos isso acontecer também.

Cada etapa na evolução do nosso produto foi um problema desafiador de resolver, mas significou que as necessidades dos nossos clientes realmente transformaram o Fireworks no que ele é hoje: um mecanismo de inferência extremamente rápido e com baixo TCO. Além disso, oferecemos uma variedade de modelos prontos para uso de alta qualidade para você escolher ou serviços de ajuste fino para que os desenvolvedores criem os seus próprios.

Tenho duas filhas adolescentes que usam aplicativos genAI como ChatGPT com frequência. Como mãe, preocupo-me com a possibilidade de encontrarem conteúdo enganoso ou impróprio, porque a indústria está apenas começando a enfrentar o problema crítico da segurança do conteúdo. Meta está fazendo muito com o projeto Purple Llama, e os novos modos SD3 do Stability AI são ótimos. Ambas as empresas estão trabalhando duro para trazer segurança aos seus novos modelos Llama3 e SD3 com múltiplas camadas de filtros. O modelo de salvaguarda de entrada-saída, Llama Guard, é bastante utilizado em nossa plataforma, mas sua adoção ainda não está no mesmo nível de outros LLMs. A indústria como um todo ainda tem um longo caminho a percorrer para trazer a segurança do conteúdo e a ética da IA ​​para o primeiro plano.

Nós da Fireworks nos preocupamos profundamente com privacidade e segurança. Somos compatíveis com HIPAA e SOC2 e oferecemos conectividade VPC e VPN segura. As empresas confiam no Fireworks seus dados e modelos proprietários para construir seu fosso de negócios.

Assim como o AlphaGo demonstrou autonomia ao aprender a jogar xadrez sozinho, acho que veremos os aplicativos genAI se tornarem cada vez mais autônomos. Os aplicativos encaminharão e direcionarão automaticamente as solicitações para o agente ou API certo para processamento e correção do curso até que recuperem a saída correta. E em vez de um modelo de chamada de função pesquisando outros como controladores, veremos mais agentes auto-organizados e autocoordenados trabalhando em uníssono para resolver problemas.

A inferência extremamente rápida, os modelos de chamada de função e o serviço de ajuste fino do Fireworks abriram o caminho para essa realidade. Agora cabe aos desenvolvedores inovadores fazer isso acontecer.

Obrigado pela ótima entrevista, os leitores que desejam saber mais devem visitar IA de fogos de artifício.

Sócio fundador da unite.AI e membro do Conselho de Tecnologia da Forbes, Antoine é um futurista que é apaixonado pelo futuro da IA ​​e da robótica.

Ele também é o fundador da Valores Mobiliários.io, um site que foca em investir em tecnologia disruptiva.