Entrevistas
Steve Nemzer, Diretor Sênior de Crescimento e Inovação em IA da TELUS Digital – Série de Entrevistas

Steve NemzerComo Diretor Sênior de Crescimento e Inovação em IA da TELUS Digital, Nemzer lidera iniciativas focadas no avanço de dados e infraestrutura de treinamento de IA para sistemas de inteligência artificial de próxima geração. Seu trabalho inclui o desenvolvimento de conjuntos de dados para modelos de pesquisa avançada, ambientes de aprendizado por reforço, dados de modelos do mundo real, iniciativas de IA soberana e estruturas de mitigação de riscos de IA, com forte ênfase em práticas responsáveis de IA, como o combate ao viés em conjuntos de dados e o apoio a condições de trabalho justas para treinadores de IA. No início de sua carreira, Nemzer fundou a VeriTest Labs, ajudando líderes de tecnologia como Microsoft, Intel, Oracle e Sun Microsystems a construir ecossistemas de software de terceiros prósperos, antes da empresa ser adquirida pela Lionbridge.
TELUS Digital é uma empresa global de serviços de tecnologia que ajuda organizações a projetar, construir e operar plataformas digitais e soluções baseadas em IA. Atuando em dezenas de países, a empresa fornece serviços como dados de treinamento e anotação de IA, engenharia de produtos digitais e gestão da experiência do cliente. Suas plataformas e serviços dão suporte a empresas de diversos setores, incluindo tecnologia, finanças, saúde, telecomunicações e jogos, à medida que modernizam suas operações e implementam recursos avançados de IA.
Considerando sua experiência em testes de IA, validação de dados e implementação responsável, como você vê a transição da IA generativa orientada pela linguagem para modelos que visam raciocinar sobre situações e resultados do mundo real, particularmente em sua função atual na TELUS Digital?
Os grandes modelos de linguagem (LLMs, na sigla em inglês) são fundamentalmente sistemas de previsão de padrões. Eles geram respostas prevendo o próximo token com base em padrões aprendidos a partir de grandes corpora estáticos. Embora isso possa parecer raciocínio, o modelo não está, na verdade, modelando como as ações alteram o estado do mundo.
Os modelos de mundo adotam uma abordagem diferente. Em vez de prever a próxima palavra ou token, eles visam prever o próximo estado de um sistema, modelando as transições de estado. Isso permite que os sistemas simulem como os ambientes evoluem em resposta às ações. Na prática, isso abre caminho para o raciocínio hipotético, em que um modelo pode avaliar diferentes resultados possíveis antes de tomar uma decisão. Para sistemas interativos, isso pode contribuir para uma tomada de decisão e um planejamento mais confiáveis.
Essa mudança também altera a forma como pensamos sobre a implementação responsável. Com os sistemas tradicionais de IA generativa, grande parte do foco tem sido em questões como viés e alucinações. À medida que os modelos evoluem para o raciocínio sobre ambientes e ações, outros riscos se tornam mais evidentes.
Por exemplo, as organizações precisam considerar a lacuna entre a simulação e a realidade, onde os comportamentos aprendidos em ambientes simulados podem não se traduzir perfeitamente em condições do mundo real. A mudança na distribuição também se torna uma preocupação fundamental, já que os ambientes que os modelos encontram na implementação podem diferir dos dados com os quais foram treinados.
É aqui que os testes e a validação se tornam cruciais, um foco importante da minha função na TELUS Digital. À medida que os sistemas de IA evoluem da geração de linguagem para sistemas que interagem com ambientes e tomam decisões, as organizações precisam de estruturas de avaliação rigorosas para garantir que os modelos se comportem de forma confiável em condições reais.
Muitas pessoas estão familiarizadas com grandes modelos de linguagem, mas muito menos entendem os modelos de mundo. Em termos simples, qual problema os modelos de mundo tentam resolver que os modelos de linguagem de grande escala têm dificuldade em solucionar?
Um modelo mundial é um sistema capaz de prever "o que acontecerá a seguir" dado um estado atual e uma ação. A fórmula é: Estado + Ação → Próximo Estado
Se eu estiver segurando uma maçã e a soltar, um modelo do mundo prevê que a maçã cairá. Ele não apenas sabe como as maçãs "se parecem" ou o que as pessoas "dizem sobre" deixar cair maçãs – ele prevê a consequência com base em sua compreensão da física. Um modelo sofisticado do mundo preverá o que aconteceria se eu fizesse a mesma coisa na Estação Espacial Internacional, em vez de na superfície da Terra.
Isso é diferente de um LLM. Um LLM prevê: "Dada esta sequência de tokens, qual token vem a seguir?" Ele é treinado com texto — o que os humanos escreveram sobre o mundo, não o mundo em si. Ele pode dizer que maçãs caídas caem porque leu sobre isso. Mas não possui um mecanismo de física interno que simule a queda.
Em outras palavras, os Modelos de Aprendizagem Baseados em Lógica (LLMs) são bons em prever estatisticamente a próxima palavra em uma resposta a uma pergunta, mas a compreensão do mundo real vai além da descrição e coesão da linguagem. Os modelos do mundo real visam entender como as situações evoluem passo a passo, qual é o próximo estado dado o estado atual e a ação que ocorrerá, e quais restrições existem.
Os modelos mundiais são frequentemente descritos como ferramentas que permitem aos sistemas de IA simular resultados antes de agir. Como isso se traduz na prática e quão perto estamos de ver esse funcionamento de forma confiável fora dos ambientes de pesquisa?
Um desafio ao responder a essa pergunta é que o termo "modelo de mundo" é usado de forma bastante vaga, e seu significado tende a mudar dependendo do contexto. Uma definição simples de modelo de mundo é que ele permite que um agente simule seu ambiente atual, preveja estados futuros e raciocine sobre as consequências subsequentes. Pesquisadores tendem a categorizar os modelos de mundo de forma um pouco mais granular, com base em seus métodos de representação e processamento. Existem modelos de mundo latentes, que destilam a "essência" de um ambiente em um espaço compacto e focado. Existem modelos de mundo generativos que "compreendem" a física para criar representações visuais quadro a quadro, e existem modelos de Arquitetura Preditiva de Incorporação Conjunta (JEPA), que preveem resultados a partir de ações passadas.
Os modelos latentes do mundo já saíram dos laboratórios de pesquisa e estão auxiliando em aplicações como direção autônoma, operações de armazém, operações industriais e agricultura. Os modelos generativos do mundo estão surgindo na criação de dados sintéticos para o desenvolvimento de motores de jogos, para casos de uso de direção autônoma, casos de uso de IA incorporada para simulação em vídeo de movimentos semelhantes aos humanos e para criar renderizações arquitetônicas.
A abordagem JEPA, favorecida por luminárias da indústria como Yan LeCun, prevê resultados em um espaço de representação abstrato em vez de gerar pixels. Os robôs têm sido em grande parte confinados a ambientes controlados, mas o JEPA está mudando isso, permitindo que os robôs se desloquem para ambientes abertos e do mundo real. Veículos autônomos são um bom exemplo – alguns estão utilizando o Genie 3 para gerar simulações hiper-realistas e interativas para treinamento e para lidar melhor com eventos raros, como zonas de construção.
Obviamente, são necessários muito mais testes de segurança e confiabilidade para ampliar a escala desses modelos, levando-os de ambientes isolados para o mundo real.
Do ponto de vista empresarial, onde você espera que os modelos mundiais gerem valor significativo primeiro, seja em robótica, sistemas autônomos de decisão, gêmeos digitais ou em contextos de negócios mais abstratos?
Meu palpite é que os gêmeos digitais provavelmente trarão valor prático primeiro. Eles replicam o estado de um sistema do mundo real para que possamos testar cenários antes de agir. Por exemplo, em um sistema de cadeia de suprimentos, um fabricante pode construir um gêmeo digital de sua rede de parceiros de componentes. A simulação pode ser alimentada por dados de sensores, registros, dados de telemetria e pode responder a perguntas como "O que aconteceria se o Estreito de Ormuz fosse fechado?". Assim, podemos testar o redirecionamento de remessas antes de realmente alterar a logística. Isso nos ajuda a passar do monitoramento de um sistema em tempo real para a simulação de um sistema em tempo real.
A obtenção de valor significativo a partir de modelos do mundo real para a robótica está avançando em paralelo. Fazer com que os robôs compreendam propriedades fundamentais da física, como o atrito em uma superfície ao pegar um objeto, impulsionará a implementação da IA incorporada.
Grande parte da sua carreira foi dedicada à coleta, anotação e validação de conjuntos de dados. Como os desafios relacionados aos dados mudam ao passar do treinamento com texto estático para o ensino de sistemas sobre como o mundo se comporta ao longo do tempo?
A coleta de dados necessária para o desenvolvimento de modelos do mundo real exige uma grande mudança em relação aos métodos de treinamento de modelos de lógica latente (LLM) de ontem. Em primeiro lugar, não dispomos de um gigantesco conjunto de dados de pré-treinamento, como os petabytes do Common Crawl e os bilhões de páginas da web. Alguns pesquisadores da área de robótica especulam que temos apenas 1/1000 da quantidade de dados necessária para treinar inteligências físicas e modelos do mundo real, a fim de atingir um desempenho equivalente ao do GPT-2, por exemplo.
Portanto, levará algum tempo para construir esses conjuntos de dados. No caso da IA incorporada, precisaremos de milhões de horas de dados egocêntricos multissensoriais anotados. Alguns obtidos por teleoperação, outros em ambientes sintéticos como o Isaac Sim. Na TELUS Digital, fizemos a transição de dados textuais para multimodais e, posteriormente, para conjuntos de dados multissensoriais e de simulação. É claro que nossa sólida experiência em coleta e anotação de dados em visão computacional nos ajuda bastante. Estamos na vanguarda dessa área há muitos anos.
Além da escassez de dados de pré-treinamento e de dados anotados para ajuste fino, haverá muitos outros desafios de treinamento na escalabilidade do aprendizado por reforço. Poderão surgir novos paradigmas transformadores (sem trocadilho), como os conceitos de GPT e RL, necessários para acelerar os avanços em eficiência nos métodos de treinamento de modelos do mundo real.
Os modelos mundiais influenciam as decisões em vez de apenas gerar resultados. Que novos riscos de segurança ou governança isso introduz em comparação com os sistemas de IA generativa?
Existem muitos riscos de segurança e governança, visto que os modelos do mundo real são inerentemente concebidos para dar suporte a operações automatizadas. Portanto, todas as preocupações que temos sobre a geração atual de agentes de IA ainda se aplicam ao cenário do modelo do mundo real. Precisamos de supervisão humana para todas as tomadas de decisão importantes, sejam elas relacionadas à segurança no transporte, segurança ocupacional, saúde, finanças ou atividades cotidianas.
Um exemplo específico para modelos do mundo real é a discrepância entre os dados de treinamento da simulação e os ambientes do mundo real. Uma variação microscópica na superfície pode tornar o mundo real complexo para robôs bem treinados em simulação.
Outro risco está relacionado ao comportamento humano. À medida que os sistemas se tornam cada vez mais autônomos, os humanos começarão a depender muito deles, e a supervisão poderá se tornar negligente, podendo levar à falta de recalibração necessária por parte do sistema.
O viés e a confiança continuam sendo grandes obstáculos à adoção da IA. Como essas preocupações evoluem quando os sistemas de IA começam a modelar e agir em ambientes complexos do mundo real ou sociais?
Desde o público em geral até os executivos de alto escalão, a confiança nos modelos de IA já é bastante baixa e não vejo isso mudando muito em curto prazo.
A preocupação com a concentração do poder da IA em poucas mãos, com a possibilidade de a IA eliminar empregos, com o viés na IA colocando grupos sub-representados em desvantagem, com modelos tomando decisões que afetam a saúde, a carreira e as finanças das pessoas, com modelos usando propriedade intelectual sem consentimento, bem como com a preocupação com deepfakes criados por IA, já é muito grande. Os executivos se preocupam com a gestão das transições da força de trabalho, com a privacidade dos dados e a conformidade regulatória, e com a perda de terreno para os concorrentes em uma "corrida armamentista" da IA.
Os recentes acontecimentos noticiados sobre a pressão governamental sobre os criadores de modelos fundamentais de IA para que flexibilizem os termos de uso relativos a aplicações como armas autônomas ou vigilância em massa só intensificam essas preocupações. A implantação mais ampla de robôs mais inteligentes e autônomos, baseados em modelos do mundo real, terá o mesmo efeito.
Por outro lado, estamos vendo focos de ampla adoção e confiança na IA. Um exemplo disso é a forma como os agentes de codificação decolaram nos últimos meses. Os gerentes de desenvolvimento de software confiam muito nesses agentes, e há uma mudança fundamental na maneira como o desenvolvimento de software é feito, desde o desenvolvimento do PRD até os testes de regressão pós-lançamento. O mundo do desenvolvimento de software está evoluindo em ritmo acelerado, e muito disso se deve à confiança em agentes de codificação de alto desempenho. À medida que a confiança do usuário cresce em outros casos de uso, espero que a adoção decole de forma semelhante.
As soluções para construir confiança incluem conjuntos de dados e ambientes diversificados nas fases de treinamento, além de extensos testes de intrusão e de estresse como medida de segurança antes da implementação. A supervisão regulatória proativa também é imprescindível. Alguns sugerem que os desenvolvedores de modelos fundamentais sejam obrigados a fornecer "Relatórios de Impacto Social", semelhantes aos Relatórios de Impacto Ambiental (EIA), antes do lançamento de novos modelos.
Na TELUS Digital, grande parte do trabalho envolve a implementação de IA em larga escala para empresas e usuários reais. Como ideias como modelos do mundo real se cruzam com preocupações práticas como transparência, impacto na força de trabalho e manutenção da confiança do cliente?
Para esclarecer, a TELUS Digital trabalha tanto diretamente com os criadores dos modelos fundamentais, quanto com as empresas que implementam modelos de IA. Nossa atuação é de ponta a ponta:

A questão sobre as preocupações práticas está relacionada à investigação anterior sobre confiança. Vejamos a confiança da força de trabalho. À medida que as IAs baseadas em modelos do mundo real se tornam mais difundidas, os executivos precisam ser transparentes com seus funcionários, contratados e clientes. É necessária uma comunicação clara sobre as capacidades dos modelos, como foram treinados, quais dados foram usados para treiná-los, quais medidas de segurança foram implementadas e onde entra a supervisão humana. Os líderes empresariais precisam mostrar à força de trabalho atual o valor dos novos modelos, por exemplo, realizando todo o trabalho repetitivo de uma função. E precisam mostrar caminhos de transição para os trabalhadores afetados que podem estar migrando para novas funções emergentes, à medida que as anteriores são cada vez mais executadas por IAs baseadas em modelos do mundo real. Os trabalhadores de escritório estão lidando com isso em tempo real, e muitos trabalhos manuais serão afetados nos próximos anos, conforme a automação baseada em modelos do mundo real se expande.
Existe uma lacuna crescente entre o que os pesquisadores de IA entendem e o que o público percebe. Como as organizações podem comunicar avanços como modelos mundiais de uma forma que gere confiança sem exagerar suas capacidades?
Novamente, tudo se resume à transparência sobre as limitações dos modelos e sobre seus pontos fortes. É preciso comunicar como os modelos foram treinados para mitigar possíveis vieses e qual a supervisão humana implementada. Algumas demonstrações práticas das capacidades e casos de uso do modelo, juntamente com estudos longitudinais, podem contribuir significativamente para aumentar a confiança do público em geral e dos profissionais da área.
Por fim, qual é uma ideia errada comum sobre os modelos de IA para o mundo, seja ela excessivamente otimista ou excessivamente cautelosa, que você acha que precisa ser corrigida agora?
Na medida limitada em que o público em geral está informado sobre modelos mundiais, uma ideia equivocada comum é a de que esses modelos precisam ser compreendidos. todos os Para serem eficazes, os veículos autônomos precisam compreender a física e a ciência. Os modelos globais serão implementados mais cedo do que se imagina, pois os casos de uso individuais podem ser mais específicos. Um veículo autônomo precisa apenas entender a dinâmica do tráfego e a física relacionada às vias, e como as condições atuais (por exemplo, estar perto de uma escola primária ou a presença de SUVs altos nas proximidades) afetarão sua visão e tomada de decisões. Um veículo autônomo não precisa da física que rege o preparo de um suflê para funcionar.
Obrigado pela ótima entrevista, os leitores que desejam saber mais devem visitar TELUS Digital.












