Terhubung dengan kami

Pemimpin Pikiran

Memahami Arsitektur Data Lakehouse Lokal

Dalam lanskap perbankan yang berbasis data saat ini, kemampuan untuk mengelola dan menganalisis data dalam jumlah besar secara efisien sangatlah penting untuk mempertahankan keunggulan kompetitif. Itu rumah danau data menyajikan konsep revolusioner yang mengubah cara kita mendekati pengelolaan data di sektor keuangan. Arsitektur inovatif ini menggabungkan fitur terbaik gudang data dan danau data. Ini menyediakan platform terpadu untuk menyimpan, memproses, dan menganalisis data terstruktur dan tidak terstruktur, menjadikannya aset yang sangat berharga bagi bank yang ingin memanfaatkan data mereka untuk pengambilan keputusan strategis.

Evolusi Arsitektur Data

Perjalanan menuju data lakehouse bersifat evolusioner. Gudang data tradisional telah lama menjadi tulang punggung analisis perbankan, menawarkan penyimpanan data terstruktur dan kinerja kueri yang cepat. Namun, dengan maraknya data tidak terstruktur baru-baru ini dari berbagai sumber termasuk media sosial, interaksi pelanggan, dan perangkat IoT, data lake muncul sebagai solusi kontemporer untuk menyimpan data mentah dalam jumlah besar.

Data lakehouse mewakili langkah berikutnya dalam evolusi ini, menjembatani kesenjangan antara data warehouse dan data lake. Bagi bank seperti Akbank, hal ini berarti kita kini dapat menikmati manfaat dari dua hal – struktur dan kinerja gudang data, serta fleksibilitas dan skalabilitas data lake.

Konsep Utama Data Lakehouse

Arsitektur Hibrida

Pada intinya, data lakehouse mengintegrasikan kekuatan data lake dan gudang data. Pendekatan hibrid ini memungkinkan bank untuk menyimpan data mentah dalam jumlah besar sambil tetap mempertahankan kemampuan untuk melakukan kueri yang cepat dan kompleks seperti yang biasa terjadi pada gudang data.

Platform Data Terpadu

Salah satu keuntungan paling signifikan dari data lakehouse adalah kemampuannya untuk menggabungkan data terstruktur dan tidak terstruktur dalam satu platform. Bagi bank, ini berarti kami dapat menganalisis data transaksi tradisional bersama dengan data tidak terstruktur dari interaksi pelanggan, sehingga memberikan pandangan yang lebih komprehensif tentang bisnis dan pelanggan kami.

Fitur Utama dan Manfaat

Data lakehouse menawarkan beberapa manfaat utama yang sangat berharga di sektor perbankan.

Skalabilitas

Seiring bertambahnya volume data kami, arsitektur rumah danau dapat dengan mudah disesuaikan untuk mengakomodasi pertumbuhan ini. Hal ini penting dalam perbankan, karena kami terus-menerus mengumpulkan data transaksi dan pelanggan dalam jumlah besar. Lakehouse memungkinkan kami memperluas kemampuan penyimpanan dan pemrosesan tanpa mengganggu operasi kami yang ada.

keluwesan

Kami dapat menyimpan dan menganalisis berbagai jenis data, mulai dari catatan transaksi hingga email pelanggan. Fleksibilitas ini sangat berharga dalam lingkungan perbankan saat ini, dimana data tidak terstruktur dari media sosial, interaksi layanan pelanggan, dan sumber lainnya dapat memberikan wawasan yang kaya bila dikombinasikan dengan data terstruktur tradisional.

Analisis waktu nyata

Hal ini penting untuk deteksi penipuan, penilaian risiko, dan pengalaman pelanggan yang dipersonalisasi. Di perbankan, kemampuan menganalisis data secara real-time dapat menjadi pembeda antara menghentikan transaksi penipuan dan kehilangan jutaan dolar. Hal ini juga memungkinkan kami menawarkan layanan yang dipersonalisasi dan membuat keputusan dalam hitungan detik mengenai persetujuan pinjaman atau rekomendasi investasi.

Efektivitas biaya

Dengan mengkonsolidasikan infrastruktur data, kami dapat mengurangi biaya secara keseluruhan. Alih-alih mempertahankan sistem terpisah untuk pergudangan data dan analisis data besar, data lakehouse memungkinkan kita menggabungkan fungsi-fungsi ini. Hal ini tidak hanya mengurangi biaya perangkat keras dan perangkat lunak namun juga menyederhanakan infrastruktur TI kami, sehingga menurunkan biaya pemeliharaan dan operasional.

Tata Kelola Data

Peningkatan kemampuan untuk menerapkan yang kuat tata kelola data praktik yang sangat penting dalam industri kita yang diatur dengan ketat. Sifat terpadu dari data lakehouse memudahkan penerapan langkah-langkah kualitas, keamanan, dan privasi data yang konsisten di seluruh data kami. Hal ini sangat penting dalam perbankan, di mana kita harus mematuhi peraturan ketat seperti GDPR, PSD2, dan berbagai peraturan perbankan nasional.

Arsitektur Data Lakehouse Lokal

Data lakehouse di lokasi adalah arsitektur data lakehouse yang diimplementasikan dalam pusat data milik organisasi, bukan di cloud. Bagi banyak bank, termasuk Akbank, pemilihan solusi on-premise sering kali didorong oleh persyaratan peraturan, masalah kedaulatan data, dan kebutuhan akan kendali penuh atas infrastruktur data kami.

Komponen Inti

Lakehouse data di lokasi biasanya terdiri dari empat komponen inti:

  • Lapisan penyimpanan data
  • Lapisan pemrosesan data
  • Manajemen metadata
  • Keamanan dan pemerintahan

Masing-masing komponen ini memainkan peran penting dalam menciptakan sistem pengelolaan data yang kuat, efisien, dan aman.

Arsitektur Terperinci dari Data Lakehouse Lokal

Lapisan Penyimpanan Data

Lapisan penyimpanan adalah fondasi dari data lakehouse di lokasi. Kami menggunakan kombinasi Sistem File Terdistribusi Hadoop (HDFS) dan solusi penyimpanan objek untuk mengelola repositori data kami yang luas. Untuk data terstruktur, seperti informasi akun pelanggan dan catatan transaksi, kami memanfaatkan Gunung Es Apache. Format tabel terbuka ini memberikan kinerja luar biasa untuk membuat kueri dan memperbarui kumpulan data besar. Untuk data kami yang lebih dinamis, seperti log transaksi real-time, kami menggunakan Apache Hudi, yang memungkinkan untuk upsert dan pemrosesan tambahan.

Lapisan Pemrosesan Data

Lapisan pemrosesan data adalah tempat keajaiban terjadi. Kami menerapkan kombinasi pemrosesan batch dan real-time untuk menangani beragam kebutuhan data kami.

Untuk proses ETL, kami menggunakan Informatica PowerCenter, yang memungkinkan kami mengintegrasikan data dari berbagai sumber di seluruh bank. Kami juga sudah mulai bergabung dbt (alat pembuatan data) untuk mengubah data di gudang data kami.

Apache Spark memainkan peran penting dalam pemrosesan data besar kami, memungkinkan kami melakukan analisis kompleks pada kumpulan data besar. Untuk pemrosesan waktu nyata, khususnya untuk deteksi penipuan dan wawasan pelanggan waktu nyata, kami menggunakan Flash Apache.

Kueri dan Analisis

Untuk memungkinkan ilmuwan dan analis data memperoleh wawasan dari data lakehouse kami, kami telah menerapkannya Trill untuk kueri interaktif. Hal ini memungkinkan kueri SQL cepat di seluruh data lake kami, di mana pun data disimpan.

Manajemen Metadata

Manajemen metadata yang efektif sangat penting untuk menjaga ketertiban di data lakehouse kami. Kami menggunakan Metastore Apache Hive dalam hubungannya dengan Apache Iceberg untuk membuat katalog dan mengindeks data kami. Kami juga sudah menerapkannya Amundsen, mesin metadata sumber terbuka LinkedIn, untuk membantu tim data kami menemukan dan memahami data yang tersedia di rumah danau kami.

Keamanan dan Tata Kelola

Di sektor perbankan, keamanan dan tata kelola adalah yang terpenting. Kami menggunakan Penjaga Apache untuk kontrol akses dan privasi data, memastikan bahwa data sensitif pelanggan hanya dapat diakses oleh personel yang berwenang. Untuk silsilah data dan audit, kami telah menerapkannya Atlas Apache, yang membantu kami melacak aliran data melalui sistem kami dan mematuhi persyaratan peraturan.

Pertimbangan Implementasi

Persyaratan Infrastruktur

Penerapan data lakehouse di lokasi memerlukan investasi infrastruktur yang besar. Di Akbank, kami harus meningkatkan perangkat keras kami untuk menangani peningkatan permintaan penyimpanan dan pemrosesan. Hal ini mencakup server berkinerja tinggi, peralatan jaringan yang kuat, dan solusi penyimpanan yang dapat diskalakan.

Integrasi dengan Sistem yang Ada

Salah satu tantangan utama kami adalah mengintegrasikan data lakehouse dengan sistem yang ada. Kami mengembangkan strategi migrasi bertahap, secara bertahap memindahkan data dan proses dari sistem lama kami ke arsitektur baru. Pendekatan ini memungkinkan kami menjaga kelangsungan bisnis saat melakukan transisi ke sistem baru.

Performa dan Skalabilitas

Memastikan kinerja tinggi seiring pertumbuhan data kami telah menjadi fokus utama. Kami telah menerapkan strategi partisi data dan mengoptimalkan mesin kueri kami untuk mempertahankan waktu respons kueri yang cepat bahkan ketika volume data kami meningkat.

Tantangan dan Praktik Terbaik

Tantangan Umum

Dalam perjalanan kami menerapkan data lakehouse di lokasi, kami menghadapi beberapa tantangan:

  • Masalah integrasi data, khususnya dengan sistem lama
  • Mempertahankan kinerja seiring pertumbuhan volume data
  • Memastikan kualitas data di berbagai sumber data
  • Melatih tim kami tentang teknologi dan proses baru

Praktik Terbaik

Berikut beberapa praktik terbaik yang kami terapkan:

  • Terapkan tata kelola data yang kuat sejak awal
  • Berinvestasi pada alat dan proses kualitas data
  • Berikan pelatihan komprehensif untuk tim Anda
  • Mulailah dengan proyek percontohan sebelum implementasi skala penuh
  • Tinjau dan optimalkan arsitektur Anda secara berkala

Tren masa depan

Ke depan, kami melihat beberapa tren menarik di bidang data lakehouse:

  • Peningkatan adopsi AI dan pembelajaran mesin untuk manajemen data dan analitik
  • Integrasi yang lebih besar dari komputasi tepi dengan data lakehouse
  • Peningkatan otomatisasi dalam tata kelola data dan manajemen kualitas
  • Evolusi berkelanjutan dari teknologi sumber terbuka yang mendukung arsitektur data lakehouse

Kesimpulan

Lakehouse data on-premise mewakili lompatan maju yang signifikan dalam pengelolaan data untuk sektor perbankan. Di Akbank, hal ini memungkinkan kami menyatukan infrastruktur data, meningkatkan kemampuan analitis, dan mempertahankan standar keamanan dan tata kelola data tertinggi.

Ketika kita terus menavigasi lanskap teknologi perbankan yang terus berubah, data lakehouse tidak diragukan lagi akan memainkan peran penting dalam kemampuan kita memanfaatkan data untuk keuntungan strategis. Bagi bank yang ingin tetap kompetitif di era digital zaman sekarang, dengan serius mempertimbangkan arsitektur data lakehouse – baik on-premise atau di cloud – tidak lagi bersifat opsional, melainkan suatu keharusan.

Metin Sarıkaya memimpin inisiatif Data Warehouse, Business Intelligence, dan Big Data di Akbank, salah satu bank besar Turki. Beliau memiliki pengalaman luas dalam evolusi manajemen data di sektor perbankan, mulai dari gudang data tradisional hingga arsitektur mutakhir.