Entrevistas
Steven Hillion, SVP de Dados e IA na Astronomer – Série de Entrevistas

Steven Hillion é o Vice-Presidente Sênior de Dados e IA na Astronomer, onde ele aproveita sua extensa formação acadêmica em matemática de pesquisa e mais de 15 anos de experiência no desenvolvimento de plataformas de aprendizado de máquina no Vale do Silício. Na Astronomer, ele lidera a criação de recursos do Apache Airflow projetados especificamente para equipes de ML e IA e supervisiona a equipe interna de ciência de dados. Sob sua liderança, a Astronomer avançou sua plataforma de orquestração de dados moderna, melhorando significativamente suas capacidades de pipeline de dados para suportar uma ampla gama de fontes de dados e tarefas por meio do aprendizado de máquina.
Pode compartilhar alguma informação sobre sua jornada em ciência de dados e IA, e como isso moldou sua abordagem para liderar equipes de engenharia e análise?
Eu tive uma formação em matemática de pesquisa em Berkeley antes de me mudar para o Vale do Silício e trabalhar como engenheiro em uma série de start-ups bem-sucedidas. Eu estava feliz em deixar para trás a política e a burocracia da academia, mas encontrei dentro de alguns anos que sentia falta da matemática. Então, mudei para desenvolver plataformas para aprendizado de máquina e análise, e é basicamente o que eu tenho feito desde então.
Minha formação em matemática pura resultou em uma preferência pelo que os cientistas de dados chamam de ‘parsimônia’ — a ferramenta certa para o trabalho, e nada mais. Porque os matemáticos tendem a favorecer soluções elegantes em vez de máquinas complexas, eu sempre tentei enfatizar a simplicidade ao aplicar aprendizado de máquina a problemas de negócios. O aprendizado profundo é ótimo para algumas aplicações — modelos de linguagem grandes são brilhantes para resumir documentos, por exemplo —, mas às vezes um modelo de regressão simples é mais apropriado e mais fácil de explicar.
Foi fascinante ver o papel cambiante do cientista de dados e do engenheiro de software nesses últimos vinte anos desde que o aprendizado de máquina se tornou comum. Tendo usado ambos os chapéus, estou muito ciente da importância do ciclo de vida de desenvolvimento de software (especialmente automação e teste) aplicado a projetos de aprendizado de máquina.
Quais são os principais desafios em mover, processar e analisar dados não estruturados para IA e grandes modelos de linguagem (LLMs)?
No mundo da IA Gerativa, seus dados são seu ativo mais valioso. Os modelos estão cada vez mais comoditizados, então sua diferenciação é todo o conhecimento institucional difícil de conquistar capturado em seus conjuntos de dados proprietários e curados.
Entregar os dados certos no momento certo coloca altas demandas em seus pipelines de dados — e isso se aplica a dados não estruturados tanto quanto a dados estruturados, ou talvez mais. Muitas vezes você está ingerindo dados de muitas fontes diferentes, em muitos formatos diferentes. Você precisa ter acesso a uma variedade de métodos para desempacotar os dados e prepará-los para uso em inferência de modelo ou treinamento de modelo. Você também precisa entender a proveniência dos dados e onde eles acabam para “mostrar seu trabalho”.
Se você está fazendo isso apenas uma vez para treinar um modelo, está bem. Você não precisa necessariamente operacionalizá-lo. Se você está usando o modelo diariamente, para entender a opinião do cliente de fóruns online, ou para resumir e encaminhar faturas, então começa a parecer com qualquer outro pipeline de dados operacional, o que significa que você precisa pensar em confiabilidade e reprodutibilidade. Ou se você está aprimorando o modelo regularmente, então você precisa se preocupar com o monitoramento de precisão e custo.
A boa notícia é que os engenheiros de dados desenvolveram uma ótima plataforma, Airflow, para gerenciar pipelines de dados, que já foi aplicada com sucesso ao gerenciamento de implantação de modelo e monitoramento por algumas das equipes de ML mais sofisticadas do mundo. Então, os modelos podem ser novos, mas a orquestração não é.
Pode elaborar sobre o uso de dados sintéticos para ajustar finamente modelos menores para precisão? Como isso se compara ao treinamento de modelos maiores?
É uma técnica poderosa. Você pode pensar nos melhores modelos de linguagem grandes como de alguma forma encapsulando o que eles aprenderam sobre o mundo, e eles podem passar isso para modelos menores gerando dados sintéticos. Os LLMs encapsulam vastas quantidades de conhecimento aprendido com treinamento extensivo em conjuntos de dados diversificados. Esses modelos podem gerar dados sintéticos que capturam os padrões, estruturas e informações que aprenderam. Esses dados sintéticos podem ser usados para treinar modelos menores, efetivamente transferindo algum conhecimento dos modelos maiores para os menores. Esse processo é frequentemente chamado de “destilação de conhecimento” e ajuda a criar modelos menores eficientes que ainda performam bem em tarefas específicas. E com dados sintéticos, você pode evitar problemas de privacidade e preencher lacunas em dados de treinamento que são pequenos ou incompletos.
Isso pode ser útil para treinar um modelo de IA gerativa mais específico do domínio, e pode ser até mais eficaz do que treinar um “modelo maior”, com um maior nível de controle.
Os cientistas de dados vêm gerando dados sintéticos há algum tempo, e a imputação existe há tanto tempo quanto os conjuntos de dados desordenados. Mas você sempre teve que ser muito cuidadoso para não introduzir vieses ou fazer suposições incorretas sobre a distribuição dos dados. Agora que sintetizar dados é tão fácil e poderoso, você tem que ser ainda mais cuidadoso. Erros podem ser magnificados.
Uma falta de diversidade nos dados gerados pode levar a ‘colapso do modelo’. O modelo acha que está fazendo bem, mas é porque não viu a imagem completa. E, de forma mais geral, uma falta de diversidade nos dados de treinamento é algo que as equipes de dados devem sempre procurar.
Em um nível básico, seja usando dados sintéticos ou orgânicos, a linhagem e a qualidade são fundamentais para treinar ou ajustar finamente qualquer modelo. Como sabemos, os modelos são apenas tão bons quanto os dados em que são treinados. Embora os dados sintéticos possam ser uma ferramenta útil para representar um conjunto de dados sensível sem expô-lo ou preencher lacunas que possam ser deixadas de fora de um conjunto de dados representativo, você deve ter um registro escrito mostrando de onde vieram os dados e ser capaz de provar seu nível de qualidade.
Quais são algumas técnicas inovadoras que sua equipe na Astronomer está implementando para melhorar a eficiência e confiabilidade dos pipelines de dados?
Muitas! A infraestrutura de Airflow totalmente gerenciada da Astro e o Hypervisor da Astro suportam escalabilidade dinâmica e monitoramento proativo por meio de métricas de saúde avançadas. Isso garante que os recursos sejam usados de forma eficiente e que os sistemas sejam confiáveis em qualquer escala. A Astro fornece alertas de dados robustos com notificações personalizáveis que podem ser enviadas por meio de vários canais, como Slack e PagerDuty. Isso garante uma intervenção oportuna antes que os problemas sejam agravados.
Testes de validação de dados, testes unitários e verificações de qualidade de dados desempenham papéis vitais para garantir a confiabilidade, precisão e eficiência dos pipelines de dados e, em última análise, dos dados que impulsionam seu negócio. Essas verificações garantem que, enquanto você constrói rapidamente pipelines de dados para atender aos prazos, elas estejam ativamente capturando erros, melhorando os tempos de desenvolvimento e reduzindo erros inesperados em segundo plano. Na Astronomer, construímos ferramentas como a CLI da Astro para ajudar a verificar a funcionalidade do código ou identificar problemas de integração dentro do seu pipeline de dados.
Como você vê a evolução da governança da IA gerativa, e quais medidas devem ser tomadas para apoiar a criação de mais ferramentas?
A governança é imperativa se as aplicações da IA Gerativa forem bem-sucedidas. É tudo sobre transparência e reprodutibilidade. Você sabe como obteve esse resultado, e de onde, e por quem? O Airflow por si só já fornece uma maneira de ver o que os pipelines de dados individuais estão fazendo. Sua interface do usuário foi uma das razões para sua adoção rápida no início, e na Astronomer, aumentamos isso com visibilidade em equipes e implantações. Também fornecemos a nossos clientes Dashboards de Relatórios que oferecem insights abrangentes sobre o uso da plataforma, desempenho e atribuição de custos para tomada de decisões informadas. Além disso, a API da Astro permite que as equipes implantem, automatizem e gerenciem seus pipelines de Airflow de forma programática, mitigando riscos associados a processos manuais e garantindo operações sem interrupções em escala ao gerenciar vários ambientes de Airflow.
Essas são todas etapas para ajudar a gerenciar a governança de dados, e acredito que empresas de todos os tamanhos estão reconhecendo a importância da governança de dados para garantir confiança nas aplicações de IA. Esse reconhecimento e conscientização impulsionarão principalmente a demanda por ferramentas de governança de dados, e antecipo a criação de mais dessas ferramentas para acelerar à medida que a IA gerativa se proliferar. Mas elas precisam fazer parte da pilha de orquestração maior, é por isso que consideramos fundamental à forma como construímos nossa plataforma.
Pode fornecer exemplos de como as soluções da Astronomer melhoraram a eficiência operacional e a produtividade para os clientes?
Os processos de IA Gerativa envolvem tarefas complexas e intensivas em recursos que precisam ser otimizados e executadas repetidamente. A Astro, a plataforma de Airflow gerenciada da Astronomer, fornece um quadro no centro da pilha de aplicativos de IA emergente para ajudar a simplificar essas tarefas e melhorar a capacidade de inovar rapidamente.
Ao orquestrar tarefas de IA Gerativa, as empresas podem garantir que os recursos computacionais sejam usados de forma eficiente e que os fluxos de trabalho sejam otimizados e ajustados em tempo real. Isso é particularmente importante em ambientes onde os modelos gerativos precisam ser frequentemente atualizados ou retreinados com base em novos dados.
Ao aproveitar o gerenciamento de fluxos de trabalho do Airflow e as capacidades de implantação e escalabilidade da Astronomer, as equipes podem gastar menos tempo gerenciando infraestrutura e focar sua atenção no desenvolvimento de modelos e transformação de dados, o que acelera a implantação de aplicações de IA Gerativa e melhora o desempenho.
Dessa forma, a plataforma Astro da Astronomer ajudou os clientes a melhorar a eficiência operacional da IA Gerativa em uma ampla gama de casos de uso. Para citar alguns, os casos de uso incluem descoberta de produtos de comércio eletrônico, análise de risco de churn de clientes, automação de suporte, classificação e resumo de documentos legais, obtenção de insights de produtos a partir de revisões de clientes e provisionamento de cluster dinâmico para geração de imagens de produtos.
Qual é o papel da Astronomer na melhoria do desempenho e escalabilidade de aplicações de IA e ML?
A escalabilidade é um desafio significativo para as empresas que aproveitam a IA Gerativa em 2024. Ao mudar do protótipo para a produção, os usuários esperam que seus aplicativos de IA Gerativa sejam confiáveis e performáticos, e que as saídas que produzem sejam confiáveis. Isso precisa ser feito de forma rentável, e as empresas de todos os tamanhos precisam ser capazes de aproveitar seu potencial. Com isso em mente, ao usar a Astronomer, as tarefas podem ser escaladas horizontalmente para processar dinamicamente grandes quantidades de fontes de dados. A Astro pode escalar implantações e clusters de forma elástica, e a execução de tarefas baseada em filas com tipos de máquina dedicados fornece maior confiabilidade e uso eficiente de recursos de computação. Para ajudar com a parte de eficiência de custo do quebra-cabeça, a Astro oferece recursos de escalabilidade zero e hibernação, que ajudam a controlar custos giratórios e reduzir gastos em nuvem. Também fornecemos transparência completa sobre o custo da plataforma. Minha própria equipe de dados gera relatórios de consumo que tornamos disponíveis diariamente para nossos clientes.
Quais são algumas tendências futuras em IA e ciência de dados que você está animado, e como a Astronomer está se preparando para elas?
A IA Explicável é uma área de desenvolvimento extremamente importante e fascinante. Ser capaz de olhar para o funcionamento interno de modelos muito grandes é quase sinistro. E também estou interessado em ver como a comunidade lida com o impacto ambiental do treinamento e ajuste de modelos. Na Astronomer, continuamos a atualizar nosso Registro com todas as últimas integrações, para que as equipes de dados e ML possam se conectar aos melhores serviços de modelo e às plataformas de computação mais eficientes sem qualquer esforço pesado.
Como você vê a integração de ferramentas de IA avançadas, como LLMs, com sistemas de gerenciamento de dados tradicionais evoluindo nos próximos anos?
Vimos tanto a Databricks quanto a Snowflake fazerem anúncios recentemente sobre como incorporam o uso e o desenvolvimento de LLMs dentro de suas plataformas. Outras plataformas de gerenciamento de banco de dados e ML farão o mesmo. É ótimo ver os engenheiros de dados terem acesso tão fácil a métodos tão poderosos, direto da linha de comando ou do prompt SQL.
Estou particularmente interessado em como os bancos de dados relacionais incorporam o aprendizado de máquina. Estou sempre esperando que os métodos de ML sejam incorporados ao padrão SQL, mas por algum motivo as duas disciplinas nunca realmente deram certo. Talvez desta vez seja diferente.
Estou muito animado com o futuro dos grandes modelos de linguagem para ajudar o trabalho do engenheiro de dados. Para começar, os LLMs já foram particularmente bem-sucedidos com a geração de código, embora os primeiros esforços para fornecer sugestões impulsionadas por IA para cientistas de dados tenham sido mistos: o Hex é ótimo, por exemplo, enquanto a Snowflake é insatisfatória até agora. Mas há um enorme potencial para mudar a natureza do trabalho para equipes de dados, muito mais do que para desenvolvedores. Por quê? Para os engenheiros de software, o prompt é um nome de função ou a documentação, mas para os engenheiros de dados há também os dados. Há tanto contexto que os modelos podem trabalhar para fazer sugestões úteis e precisas.
Que conselho você daria a cientistas de dados e engenheiros de IA aspirantes que buscam fazer um impacto na indústria?
Aprenda fazendo. É incrivelmente fácil construir aplicações hoje em dia, e aumentá-las com inteligência artificial. Então, construa algo legal e envie para um amigo de um amigo que trabalha em uma empresa que você admira. Ou envie para mim, e prometo que vou dar uma olhada!
O truque é encontrar algo que você seja apaixonado e encontrar uma boa fonte de dados relacionados. Um amigo meu fez uma análise fascinante de temporadas de beisebol anômalas que remontam ao século XIX e descobriu histórias que merecem ter um filme feito sobre elas. E alguns engenheiros da Astronomer se reuniram um fim de semana para construir uma plataforma para pipelines de dados auto-curativos. Não consigo imaginar tentar fazer algo assim há alguns anos, mas com apenas alguns dias de esforço, ganhamos o hackathon da Cohere e construímos a base de um novo recurso importante em nossa plataforma.
Obrigado pela ótima entrevista, leitores que desejam aprender mais devem visitar Astronomer.












