Líderes de pensamento

Compreendendo a Arquitetura de Data Lakehouse On-Premise

Publicado em 27 de agosto de 2024

Atualizado em 21 de maio de 2026

Por

Metin Sarıkaya, Líder do Data Warehouse, Inteligência de Negócios e Big Data no Akbank

No atual cenário bancário impulsionado por dados, a capacidade de gerenciar e analisar grandes volumes de dados de forma eficiente é crucial para manter uma vantagem competitiva. O data lakehouse apresenta um conceito revolucionário que está redefinindo a forma como abordamos a gestão de dados no setor financeiro. Essa arquitetura inovadora combina as melhores características de data warehouses e data lakes. Ela fornece uma plataforma unificada para armazenar, processar e analisar dados estruturados e não estruturados, tornando-se um ativo valioso para os bancos que desejam aproveitar seus dados para a tomada de decisões estratégicas.

Evolução das Arquiteturas de Dados

A jornada para os data lakehouses tem sido evolutiva. Os armazéns de dados tradicionais têm sido a espinha dorsal da análise bancária, oferecendo armazenamento de dados estruturados e desempenho de consulta rápido. No entanto, com a recente explosão de dados não estruturados de fontes que incluem mídias sociais, interações de clientes e dispositivos IoT, os data lakes surgiram como uma solução contemporânea para armazenar grandes volumes de dados brutos.

O data lakehouse representa o próximo passo nessa evolução, pontuando a lacuna entre os armazéns de dados e os data lakes. Para bancos como o Akbank, isso significa que agora podemos desfrutar dos benefícios de ambos os mundos – a estrutura e o desempenho dos armazéns de dados, e a flexibilidade e escalabilidade dos data lakes.

Conceitos-Chave do Data Lakehouse

Arquitetura Híbrida

Em seu núcleo, um data lakehouse integra as forças dos data lakes e dos armazéns de dados. Essa abordagem híbrida permite que os bancos armazenem grandes volumes de dados brutos, mantendo ainda a capacidade de realizar consultas complexas e rápidas, típicas dos armazéns de dados.

Plataforma de Dados Unificada

Uma das principais vantagens de um data lakehouse é sua capacidade de combinar dados estruturados e não estruturados em uma única plataforma. Para os bancos, isso significa que podemos analisar dados transacionais tradicionais ao lado de dados não estruturados de interações de clientes, fornecendo uma visão mais abrangente de nossos negócios e clientes.

Recursos e Benefícios-Chave

Os data lakehouses oferecem vários benefícios-chave que são particularmente valiosos no setor bancário.

Escalabilidade

À medida que nossos volumes de dados crescem, a arquitetura do lakehouse pode facilmente escalar para acomodar esse crescimento. Isso é crucial no setor bancário, onde estamos constantemente acumulando grandes volumes de dados transacionais e de clientes. O lakehouse permite que expandamos nossas capacidades de armazenamento e processamento sem interromper nossas operações existentes.

Flexibilidade

Podemos armazenar e analisar vários tipos de dados, desde registros de transações até e-mails de clientes. Essa flexibilidade é inestimável no ambiente bancário atual, onde dados não estruturados de mídias sociais, interações de serviço ao cliente e outras fontes podem fornecer insights ricos quando combinados com dados estruturados tradicionais.

Análise em Tempo Real

Isso é crucial para a detecção de fraude, avaliação de risco e experiências personalizadas para os clientes. No setor bancário, a capacidade de analisar dados em tempo real pode significar a diferença entre parar uma transação fraudulenta e perder milhões. Também nos permite oferecer serviços personalizados e tomar decisões rápidas sobre aprovações de empréstimos ou recomendações de investimento.

Eficiência de Custo

Ao consolidar nossa infraestrutura de dados, podemos reduzir os custos gerais. Em vez de manter sistemas separados para armazenamento de dados e análise de big data, um data lakehouse nos permite combinar essas funções. Isso não apenas reduz os custos de hardware e software, mas também simplifica nossa infraestrutura de TI, levando a menores custos de manutenção e operacionais.

Governança de Dados

Capacidade aprimorada de implementar práticas robustas de governança de dados, cruciais em nossa indústria altamente regulamentada. A natureza unificada de um data lakehouse torna mais fácil aplicar medidas consistentes de qualidade de dados, segurança e privacidade em todos os nossos dados. Isso é particularmente importante no setor bancário, onde devemos cumprir regulamentações rigorosas como GDPR, PSD2 e várias regulamentações bancárias nacionais.

Arquitetura de Data Lakehouse On-Premise

Um data lakehouse on-premise é uma arquitetura de data lakehouse implementada dentro dos centros de dados de uma organização, em vez de na nuvem. Para muitos bancos, incluindo o Akbank, escolher uma solução on-premise é frequentemente impulsionada por requisitos regulamentares, preocupações de soberania de dados e a necessidade de controle total sobre nossa infraestrutura de dados.

Componentes Principais

Um data lakehouse on-premise geralmente consiste em quatro componentes principais:

Camada de armazenamento de dados
Camada de processamento de dados
Gerenciamento de metadados
Segurança e governança

Cada um desses componentes desempenha um papel crucial na criação de um sistema de gerenciamento de dados robusto, eficiente e seguro.

Arquitetura Detalhada do Data Lakehouse On-Premise

Camada de Armazenamento de Dados

A camada de armazenamento é a base de um data lakehouse on-premise. Utilizamos uma combinação de Hadoop Distributed File System (HDFS) e soluções de armazenamento de objetos para gerenciar nossos vastos repositórios de dados. Para dados estruturados, como informações de contas de clientes e registros de transações, utilizamos Apache Iceberg. Esse formato de tabela aberto fornece excelente desempenho para consultar e atualizar grandes conjuntos de dados. Para nossos dados mais dinâmicos, como logs de transações em tempo real, utilizamos Apache Hudi, que permite upserts e processamento incremental.

Camada de Processamento de Dados

A camada de processamento de dados é onde a mágica acontece. Empregamos uma combinação de processamento em lote e em tempo real para lidar com nossas necessidades de dados diversificadas.

Para processos ETL, utilizamos Informatica PowerCenter, que nos permite integrar dados de várias fontes em todo o banco. Também começamos a incorporar dbt (ferramenta de construção de dados) para transformar dados em nosso armazém de dados.

Apache Spark desempenha um papel crucial em nosso processamento de big data, permitindo que realizemos análises complexas em grandes conjuntos de dados. Para processamento em tempo real, particularmente para detecção de fraude e insights de clientes em tempo real, utilizamos Apache Flink.

Consulta e Análise

Para permitir que nossos cientistas e analistas de dados obtenham insights de nossos dados, implementamos Trino para consultas interativas. Isso permite consultas SQL rápidas em todo o nosso lago de dados, independentemente de onde os dados estejam armazenados.

Gerenciamento de Metadados

O gerenciamento eficaz de metadados é crucial para manter a ordem em nosso data lakehouse. Utilizamos Apache Hive metastore em conjunto com Apache Iceberg para catalogar e indexar nossos dados. Também implementamos Amundsen, o motor de metadados de código aberto do LinkedIn, para ajudar nossa equipe de dados a descobrir e entender os dados disponíveis em nosso lago.

Segurança e Governança

No setor bancário, segurança e governança são fundamentais. Utilizamos Apache Ranger para controle de acesso e privacidade de dados, garantindo que dados de clientes sensíveis sejam acessíveis apenas a pessoal autorizado. Para linhagem de dados e auditoria, implementamos Apache Atlas, que nos ajuda a rastrear o fluxo de dados por nossos sistemas e cumprir com os requisitos regulamentares.

Considerações de Implementação

Requisitos de Infraestrutura

Implementar um data lakehouse on-premise requer um investimento significativo em infraestrutura. No Akbank, tivemos que atualizar nosso hardware para lidar com as demandas aumentadas de armazenamento e processamento. Isso incluiu servidores de alto desempenho, equipamentos de rede robustos e soluções de armazenamento escaláveis.

Integração com Sistemas Existente

Um de nossos principais desafios foi integrar o data lakehouse com nossos sistemas existentes. Desenvolvemos uma estratégia de migração faseada, movendo gradualmente dados e processos de nossos sistemas legados para a nova arquitetura. Essa abordagem permitiu que mantivéssemos a continuidade dos negócios enquanto transitávamos para o novo sistema.

Desempenho e Escalabilidade

Garantir um alto desempenho à medida que nossos dados crescem tem sido um foco principal. Implementamos estratégias de particionamento de dados e otimizamos nossos motores de consulta para manter tempos de resposta de consulta rápidos, mesmo à medida que nossos volumes de dados aumentam.

Desafios e Melhores Práticas

Desafios Comuns

Em nossa jornada para implementar um data lakehouse on-premise, enfrentamos vários desafios:

Problemas de integração de dados, particularmente com sistemas legados
Manter o desempenho à medida que os volumes de dados crescem
Garantir a qualidade dos dados em fontes de dados diversificadas
Treinar nossa equipe em novas tecnologias e processos

Melhores Práticas

Aqui estão algumas melhores práticas que adotamos:

Implementar uma forte governança de dados desde o início
Investir em ferramentas e processos de qualidade de dados
Fornecer treinamento abrangente para nossa equipe
Iniciar com um projeto-piloto antes da implementação em grande escala
Revisar e otimizar regularmente nossa arquitetura

Tendências Futuras

Olhando para o futuro, vemos várias tendências emocionais no espaço do data lakehouse:

Adoção aumentada de IA e aprendizado de máquina para gerenciamento e análise de dados
Maior integração de computação de borda com data lakehouses
Automatização aprimorada na gestão de qualidade e governança de dados
Continuada evolução de tecnologias de código aberto que suportam arquiteturas de data lakehouse

Conclusão

O data lakehouse on-premise representa um salto significativo na gestão de dados para o setor bancário. No Akbank, permitiu que unificássemos nossa infraestrutura de dados, aprimorássemos nossas capacidades analíticas e mantivéssemos os mais altos padrões de segurança e governança de dados.

À medida que continuamos a navegar pelo cenário em constante mudança da tecnologia bancária, o data lakehouse desempenhará, sem dúvida, um papel crucial em nossa capacidade de aproveitar os dados para obter vantagem estratégica. Para os bancos que buscam permanecer competitivos na era digital, considerar seriamente uma arquitetura de data lakehouse – seja on-premise ou na nuvem – não é mais opcional, é imperativo.