Connect with us

Zuzanna Stamirowska, Co-Fundadora e CEO da Pathway – Série de Entrevistas

Entrevistas

Zuzanna Stamirowska, Co-Fundadora e CEO da Pathway – Série de Entrevistas

mm

Zuzanna Stamirowska, Co-Fundadora e CEO da Pathway, é uma pesquisadora que se tornou construtora e que anteriormente trabalhou em fenômenos emergentes e evolução de redes em larga escala. Seus projetos foram reconhecidos pela Academia Nacional de Ciências dos EUA, e ela possui um PhD em Sistemas Complexos. Zuzanna, junto com o CTO Jan Chorowski e o CSO Adrian Kosowski, lidera uma equipe que já construiu ferramentas de IA abertas com mais de 62.000 estrelas no GitHub.

Pathway está reimaginando como os modelos de IA pensam, visando criar sistemas que operam continuamente e adaptativamente, em vez de em lotes. Por trás das cenas, sua ferramenta e arquitetura permitem que os modelos processem, aprendam e evoluam em tempo real. A empresa atraiu o apoio de luminares como Lukasz Kaiser (co-inventor dos Transformers) e firmas de venture proeminentes.

O que motivou você a lançar a Pathway, e como seu background em sistemas complexos, teoria dos jogos e fenômenos emergentes moldou a visão e a direção técnica da empresa?

Queríamos criar uma IA que pense e se adapte como os humanos. Percebemos que isso significa sistemas de IA (modelos de Aprendizado Profundo ou pipelines de Aprendizado de Máquina construídos a partir de um maior número de tijolos) que seriam capazes de aprender continuamente com base em dados do ambiente, melhorar com a experiência, às vezes “corrigir” suas visões anteriores do mundo. Na verdade, obtivemos bastante cobertura sobre o tópico de “desaprendizado de máquina”. Além dos modelos, esses sistemas precisavam de uma camada completa de engenharia para capturar dados na fonte e alimentá-los imediatamente em sistemas dinâmicos.

Tendo trabalhado na emergência em redes complexas, desenvolvi um número de hipóteses que acabamos aplicando diretamente ou quase diretamente no BDH. Foi engraçado, eu fiz um par de apostas com meus colegas (Adrian, CSO, e Jan, CTO) e eu ganhei um par de garrafas de conhaque muito bom. Primeiro, acreditávamos que a inteligência natural resulta de uma estrutura emergente e ação de neurônios no cérebro (isso é óbvio, não há aposta aqui). Segundo, a partir de minha pesquisa anterior, eu sabia que, em geral, a função molda a rede (ganhei essa aposta). No meu trabalho anterior, descobri isso para comércio, e neurocientistas haviam estudado isso para nervos e sentidos em camundongos, etc. Terceiro, foi o fato de que essa moldagem da estrutura da rede deve seguir algumas regras muito locais diretamente ligadas ao chamado “bairro” de cada localização da rede (neste caso, um nó é um neurônio) (ganhei essa aposta). Os outros pedaços vieram do meu conhecimento de sistemas de interação de partículas – pense, por exemplo, no magnetismo – onde as partículas ajustam seus spins a um campo externo e criam algum tipo de “ordem espontânea”. Essa foi a matemática que usei enquanto trabalhava na teoria dos jogos em grafos. Colocando tudo isso junto, desde o primeiro dia da existência da empresa, tivemos uma forte convicção de que a esparseza (estruturas semelhantes a grafos) seria uma pedra fundamental no avanço da IA.

Levar em conta a noção de tempo foi crítico e também bastante característico do meu background, porque a emergência geralmente acontece ao longo do tempo.

Quando você lançou a empresa em 2020, quais foram suas primeiras hipóteses sobre o que os sistemas de IA futuros deveriam fazer de forma diferente, e como essas visões evoluíram?

Tínhamos uma forte convicção desde o início de que a IA precisava ser ao vivo, adaptativa e integrada em processos em larga escala. Ela deveria aprender diretamente da fonte, com os dados mais brutos possíveis.

Primeiro, fizemos isso para abordagens de aprendizado de máquina mais clássicas, e ao longo do caminho, construímos camadas de engenharia que permitem que esses sistemas sejam implantados facilmente no mundo real. Agora, trouxemos essa abordagem para o aprendizado profundo.

Sabíamos que os elementos de tempo e estrutura (redes) seriam fundamentais para o avanço em direção à IA Geral. Temos isso escrito em alguns de nossos documentos fundadores de 2020.

Pode nos guiar pelo arquiteto “pós-Transformer” que você está introduzindo e como ele difere dos sistemas baseados em Transformers atuais?

Nossa nova arquitetura, chamada Baby Dragon Hatchling (BDH), conecta formalmente como os Transformers processam informações com como o raciocínio emerge no cérebro.
O BDH se comporta como um sistema físico: um modelo de computação semelhante ao cérebro, no qual os neurônios fazem um esforço colaborativo para descobrir o próximo fato mais relevante. O raciocínio contextual não é limitado por limitações de engenharia, como o comprimento de contexto fixo do Transformer, mas sim escala com o número de neurônios do modelo.

Colocando tudo isso em termos mais técnicos, ao contrário do Transformer, no BDH temos atenção linear, vetores-chave-esparso e não há limites para o tamanho da janela de contexto.

Essa abordagem abre a porta para sistemas que aprendem enquanto executam, sustentam longas cadeias de raciocínio e se adaptam continuamente no contexto.

Um recurso central do sistema é a localidade: os dados importantes estão localizados logo ao lado dos locais onde estão sendo processados. Isso minimiza a comunicação e elimina a mais dolorosa de todas as gargalos para modelos de raciocínio durante a inferência: a largura de banda de memória para núcleo.

Como sua abordagem se inspira no raciocínio humano, particularmente na capacidade de adaptabilidade e aprendizado contínuo sem retreinamento?

O BDH traz a inteligência natural e a inteligência natural mais próximas.

Essa arquitetura é inspirada na forma como os neurônios e sinapses funcionam no cérebro. Ela mapeia mecanismos de atenção biológicos para a noção computacional de atenção no aprendizado de máquina, criando uma ponte escalável entre os Transformers e o cérebro.

O BDH traz a atenção perto dos parâmetros do modelo, apresentando-os como duas reflexões do mesmo sistema dinâmico semelhante ao cérebro, com a atenção mudando a uma taxa rápida à medida que novos fatos se tornam conhecidos durante o raciocínio, e os parâmetros do modelo mudando mais lentamente à medida que o sistema muda seus hábitos de longo prazo. Isso está mais próximo de como acreditamos que o raciocínio funciona no cérebro.

Vemos o BDH como um marco em direção ao design de sistemas de IA que raciocinam durante a tarefa, melhoram com a experiência e se adaptam sem retreinamento – propriedades que associamos ao raciocínio humano.

Uma das desafios em IA é equilibrar a estabilidade com a adaptabilidade — como você garante que os sistemas possam aprender em tempo real sem perder o conhecimento passado?

O BDH confia em sua estrutura sem escala e estados de neurônios localizados para sustentar o raciocínio ao longo de horizontes de tempo longos, equilibrando a estabilidade e a capacidade de integrar novo conhecimento e observações. Esse equilíbrio natural de saúde é fácil de extrair e seguir ao longo da vida útil de um modelo.

Com o BDH, estamos colocando o raciocínio como a pedra angular da inteligência. Com o trabalho atual, fazemos progresso em uma hipótese sobre o papel do conhecimento em Grandes Modelos de Linguagem: não é tanto sobre o que é “verdade”, mas sobre o que é “útil” em um contexto dado para progredir em uma cadeia de raciocínio dada. Por exemplo, se o conhecimento é contextualizado, de repente não há contradição entre o nosso mundo seguindo leis da natureza e o fato de que sabemos uma história folclórica que admite a existência de fadas e magia. Da mesma forma, não há contradição para um modelo considerar várias hipóteses de previsão diferentes, com suposições mais e menos otimistas, em uma única cadeia de pensamento.

Modelos baseados no BDH adquirem novos fatos durante sua vida útil de forma contextualizada. Eles podem se autocorrigir por causa disso. Ao expor estatísticas fáceis de seguir da atividade de neurônios e controle granular sobre a transferência de conhecimento do contexto para os parâmetros do modelo, a arquitetura ajuda a reduzir o risco de “contextos desatualizados” ressurgirem em um momento inoportuno.

Quais são as compensações de engenharia em construir um motor de processamento de dados ao vivo que possa sustentar essas capacidades em escala?

A oferta empresarial da Pathway depende do motor de processamento de dados mais rápido do mercado. Esse motor sustenta nossa capacidade de lidar com entradas em tempo real e reagir a novas informações com baixa latência. Com o avanço atual do BDH, garantimos que essa adaptabilidade em tempo real se estenda até os modelos de IA fundamentais usados nos implantes. Nosso objetivo geral para implantações em larga escala é se afastar da otimização estática e construir infraestrutura que possa lidar com raciocínio de longo prazo.

Quais são os casos de uso mais convincentes que realmente exigem essa próxima etapa de IA, e onde os sistemas baseados em Transformers atuais falham?

Muitas inovações estenderam a funcionalidade da IA gerativa para se adaptar rapidamente a novas informações e confiar profundamente no “tempo na tarefa”, mas nada ainda conseguiu substituir a contratação de uma pessoa altamente talentosa.

A resposta rápida e direta é que estamos falando sobre qualquer tarefa que atualmente exige mais de 2h e 17 min de trabalho coerente por um especialista humano. Esse é o limite atual do GPT5 de acordo com o METER.

Tivemos ótimas discussões com parceiros de design na empresa que exigem personalização profunda, modelos que aprendem no trabalho com dados escassos e a segurança da implantação.

O BDH torna relativamente direto para uma empresa abordar processos complexos como:

  • Fechar um trimestre para uma empresa pública
  • Geração dinâmica do próximo melhor curso de ação em ambientes de alto risco é altamente relevante tanto em vendas quanto em defesa.
  • Gestão de investimentos

A OTAN já está usando a tecnologia da Pathway para processar dados militares e sociais ao vivo, permitindo sistemas de planejamento que se adaptam à medida que as situações evoluem. A La Poste está utilizando a IA ao Vivo da Pathway para gerenciar dinamicamente suas operações em tempo real. Indústrias como finanças e saúde, onde os dados são escassos ou sensíveis, podem se beneficiar de modelos que exigem menos dados, mas fornecem insights mais profundos e julgamentos mais confiáveis.

Pode compartilhar exemplos de como organizações como a OTAN, La Poste ou Fórmula 1 aplicaram sua tecnologia e o impacto que ela entregou?

A OTAN, La Poste e equipes de Fórmula 1 são adeptos precoces da tecnologia da Pathway.

A Pathway oferece à OTAN tecnologia de processamento de dados robusta e inovadora para desbloquear novas capacidades para uso crítico em escala. Com nosso demonstrador funcional, a Ferramenta de Simulação de Habilitação de Reforço (REST), desenvolvemos a pedra angular para o desenvolvimento posterior de soluções de IA apoiadas para a OTAN. Usando a Pathway para conectar dados de código aberto, aceleramos a consciência situacional e a trouxemos para o nível necessário que a OTAN exigia para operar com sucesso na década de 2020.

A La Poste utiliza a Pathway para melhorar processos relacionados a suas unidades de transporte. Com o Framework da Pathway, a La Poste antecipa suas operações automaticamente em tempo real e gera análise qualitativa ao vivo de suas operações de transporte. Com a Pathway, a empresa conseguiu otimizar suas logísticas dinamicamente, reduzindo os tempos de entrega, tempos de processamento / tempos de lead, e aumentando a confiabilidade. Além disso, eles alcançaram reduções significativas nos custos operacionais (redução de 50% no TCO em alguns casos).

A equipe de corrida de Fórmula 1 aproveita a Pathway para adaptar a estratégia em condições de alta pressão e tempo real. A empresa queria uma plataforma para que os usuários finais criassem Funções Definidas pelo Usuário (UDFs) independentemente e atendessem a várias necessidades comerciais, desde e-sports/sim-racing até carros e corrida de Fórmula. O Framework de Dados ao Vivo da Pathway permite transformações de dados avançadas na equipe de Fórmula 1 com a menor latência (velocidades de processamento 90x mais rápidas do que antes).

Quais são os principais obstáculos para implantar sistemas adaptativos em indústrias como saúde ou defesa, e como você os aborda?

Por design, os atuais LLMs geram conteúdo que é “novo” sem julgamento real – chamemos de ‘gen’ na IA gen. Muitas indústrias altamente regulamentadas precisam de governança por definição e são relutantes em implantar processos de negócios impulsionados por IA sem repetibilidade, confiabilidade e observabilidade. Ironicamente, para implantar a IA, essas empresas frequentemente “desaceleram” a funcionalidade e introduzem complexidade adicional para facilitar a conformidade com regulamentações.

Por design, o BDH permite que uma empresa observe e se adapte ao que está acontecendo dentro do modelo. Essa observabilidade ao longo de períodos de tempo longos de “raciocínio” dá à empresa a confiança para lidar com processos de negócios mais complexos e longos. O BDH é, por design, tanto observável quanto consciente do eixo do tempo dos processos de negócios. Não há necessidade de conjuntos de dados perfeitos e enormes para o aprendizado, não há necessidade de janelas de contexto extremamente longas, ou lógica de cola para observabilidade.

Quais considerações éticas ou salvaguardas são essenciais à medida que os sistemas de IA começam a aprender e se adaptar em tempo real?

Sistemas que aprendem com a experiência de fato têm melhores chances de serem seguros do que os atuais sistemas baseados em Transformers. Um elemento disso é o fato de que, com o aprendizado contínuo, eles têm a chance de se autocorrigir e atualizar seus preconceitos se estiverem errados.

Para garantir a segurança de tais sistemas, eles precisam receber feedback ao longo do tempo. O que significa que precisamos continuar alimentando-os com dados frescos e, potencialmente, garantir loops de feedback para que eles entendam os efeitos de seu próprio funcionamento. Isso está próximo do Aprendizado por Reforço.

Em segundo lugar, um modelo baseado no BDH oferece interpretabilidade, o que facilita entender como ele funciona, dando aos humanos um melhor controle sobre eles.

O que levaria para que um paradigma “pós-Transformer” se tornasse mainstream na comunidade de IA?

Um modelo no mercado que seja extremamente útil e tenha custos de inferência significativamente mais baixos, sendo mais rápido. Acreditamos que há uma vitória de mercado a ser alcançada, especialmente na empresa.

Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar Pathway.

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável em moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI. Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.