potongan Bagaimana Bias Akan Membunuh Strategi AI/ML Anda dan Apa yang Harus Dilakukan untuk Mengatasinya - Unite.AI
Terhubung dengan kami

Pemimpin Pikiran

Bagaimana Bias Akan Membunuh Strategi AI/ML Anda dan Apa yang Harus Dilakukan Untuk Mengatasinya

mm

Diterbitkan

 on

'Bias' dalam model jenis apa pun menggambarkan situasi di mana model merespons perintah atau memasukkan data secara tidak akurat karena model tersebut belum dilatih dengan data yang cukup beragam dan berkualitas tinggi untuk memberikan respons yang akurat. Salah satu contohnya adalah Fitur buka kunci ponsel dengan pengenalan wajah dari Apple, yang tingkat kegagalannya jauh lebih tinggi pada orang dengan kulit lebih gelap dibandingkan dengan orang berkulit terang. Model tersebut belum cukup dilatih untuk menggunakan gambar orang berkulit gelap. Hal ini merupakan contoh bias dengan risiko yang relatif rendah, namun hal ini merupakan alasan mengapa Undang-undang AI UE menetapkan persyaratan untuk membuktikan kemanjuran (dan pengendalian) model sebelum dipasarkan. Model dengan keluaran yang berdampak pada situasi bisnis, keuangan, kesehatan, atau pribadi harus dipercaya, atau model tersebut tidak akan digunakan.

Mengatasi Bias dengan Data

Data Berkualitas Tinggi dalam Jumlah Besar

Di antara banyak praktik pengelolaan data yang penting, a Komponen kunci untuk mengatasi dan meminimalkan bias dalam model AI/ML adalah memperoleh data yang beragam dan berkualitas tinggi dalam jumlah besar. Hal ini memerlukan kolaborasi dengan beberapa organisasi yang memiliki data tersebut. Biasanya, akuisisi dan kolaborasi data ditantang oleh masalah privasi dan/atau perlindungan IP – data sensitif tidak dapat dikirim ke pemilik model, dan pemilik model tidak dapat mengambil risiko membocorkan IP mereka ke pemilik data. Solusi umum adalah menggunakan data tiruan atau sintetis, yang mungkin berguna tetapi juga memiliki keterbatasan dibandingkan dengan menggunakan data nyata dan konteks penuh. Di sinilah teknologi peningkatan privasi (PET) memberikan jawaban yang sangat dibutuhkan.

Data Sintetis: Hampir, tapi Belum Cukup

Data sintetis dihasilkan secara artifisial untuk meniru data nyata. Hal ini sulit dilakukan tetapi menjadi lebih mudah dengan alat AI. Data sintetis berkualitas baik harus memiliki jarak fitur yang sama dengan data asli, atau data tersebut tidak akan berguna. Data sintetis berkualitas dapat digunakan untuk secara efektif meningkatkan keragaman data pelatihan dengan mengisi kesenjangan untuk populasi yang lebih kecil dan terpinggirkan, atau untuk populasi yang penyedia AI tidak memiliki cukup data. Data sintetis juga dapat digunakan untuk mengatasi kasus-kasus sulit yang mungkin sulit ditemukan dalam jumlah yang memadai di dunia nyata. Selain itu, organisasi dapat menghasilkan kumpulan data sintetis untuk memenuhi persyaratan residensi data dan privasi yang memblokir akses ke data sebenarnya. Kedengarannya bagus; namun, data sintetis hanyalah sebagian dari teka-teki, bukan solusi.

Salah satu keterbatasan nyata dari data sintetis adalah terputusnya hubungan dengan dunia nyata. Misalnya, kendaraan otonom yang dilatih hanya berdasarkan data sintetis akan kesulitan menghadapi kondisi jalan yang nyata dan tidak terduga. Selain itu, data sintetis mewarisi bias dari data dunia nyata yang digunakan untuk menghasilkannya – sehingga menggagalkan tujuan diskusi kita. Kesimpulannya, data sintetis adalah pilihan yang berguna untuk menyempurnakan dan mengatasi kasus-kasus ekstrem, namun peningkatan signifikan dalam kemanjuran model dan minimalisasi bias masih bergantung pada akses data dunia nyata.

Cara yang Lebih Baik: Data Nyata melalui Alur Kerja yang mendukung PET

PET melindungi data saat digunakan. Terkait model AI/ML, mereka juga dapat melindungi IP model yang dijalankan–”dua burung, satu batu.” Solusi yang memanfaatkan PET memberikan opsi untuk melatih model pada kumpulan data nyata dan sensitif yang sebelumnya tidak dapat diakses karena masalah privasi dan keamanan data. Membuka aliran data ke data nyata adalah pilihan terbaik untuk mengurangi bias. Tapi bagaimana cara kerjanya?

Untuk saat ini, pilihan utama dimulai dengan lingkungan komputasi rahasia. Kemudian, integrasi dengan solusi perangkat lunak berbasis PET yang membuatnya siap digunakan sekaligus memenuhi persyaratan tata kelola data dan keamanan yang tidak disertakan dalam lingkungan eksekusi tepercaya (TEE) standar. Dengan solusi ini, semua model dan data dienkripsi sebelum dikirim ke lingkungan komputasi yang aman. Lingkungan dapat dihosting di mana saja, hal ini penting ketika memenuhi persyaratan lokalisasi data tertentu. Ini berarti bahwa IP model dan keamanan data input dipertahankan selama komputasi – bahkan penyedia lingkungan eksekusi tepercaya pun tidak memiliki akses ke model atau data di dalamnya. Hasil terenkripsi kemudian dikirim kembali untuk ditinjau dan log tersedia untuk ditinjau.

Aliran ini menghasilkan data berkualitas terbaik di mana pun data tersebut berada atau siapa pun yang memilikinya, sehingga menciptakan jalur menuju minimalisasi bias dan model dengan efektivitas tinggi yang dapat kita percayai. Alur ini juga dijelaskan oleh UU AI UE dalam persyaratannya untuk kotak pasir peraturan AI.

Memfasilitasi Kepatuhan Etis dan Hukum

Mendapatkan kualitas yang baik, data nyata itu sulit. Persyaratan privasi dan pelokalan data segera membatasi kumpulan data yang dapat diakses oleh organisasi. Agar inovasi dan pertumbuhan dapat terjadi, data harus mengalir kepada pihak-pihak yang dapat mengambil manfaat dari data tersebut.

Pasal 54 UU AI UE memberikan persyaratan untuk jenis model “berisiko tinggi” dalam hal apa yang harus dibuktikan sebelum dapat dipasarkan. Singkatnya, tim perlu menggunakan data dunia nyata di dalam sebuah Kotak Pasir Regulasi AI untuk menunjukkan kemanjuran dan kepatuhan model yang memadai terhadap semua kontrol yang dirinci dalam Judul III Bab 2. Kontrol tersebut mencakup pemantauan, transparansi, kemampuan menjelaskan, keamanan data, perlindungan data, minimalisasi data, dan perlindungan model–misalnya DevSecOps + Data Ops.

Tantangan pertama adalah menemukan kumpulan data dunia nyata untuk digunakan – karena ini pada dasarnya merupakan data sensitif untuk jenis model tersebut. Tanpa jaminan teknis, banyak organisasi mungkin ragu untuk memercayai penyedia model dengan datanya atau tidak mengizinkannya. Selain itu, cara undang-undang tersebut mendefinisikan “AI Regulatory Sandbox” merupakan sebuah tantangan tersendiri. Beberapa persyaratannya antara lain jaminan bahwa data dihapus dari sistem setelah model dijalankan serta kontrol tata kelola, penegakan hukum, dan pelaporan untuk membuktikannya.

Banyak organisasi telah mencoba menggunakan ruang bersih data (DCR) dan lingkungan eksekusi tepercaya (TEE) yang siap pakai. Namun, teknologi ini memerlukan keahlian dan upaya yang signifikan untuk mengoperasionalkan dan memenuhi persyaratan peraturan data dan AI.
DCR lebih mudah digunakan, namun belum berguna untuk kebutuhan AI/ML yang lebih kuat. TEE adalah server yang aman dan masih memerlukan platform kolaborasi terintegrasi agar dapat berguna dengan cepat. Namun, hal ini mengidentifikasi peluang bagi platform teknologi peningkatan privasi untuk berintegrasi dengan TEE guna menghilangkan pekerjaan tersebut, meremehkan pengaturan dan penggunaan kotak pasir peraturan AI, dan oleh karena itu, akuisisi dan penggunaan data sensitif.

Dengan memungkinkan penggunaan kumpulan data yang lebih beragam dan komprehensif dengan cara yang menjaga privasi, teknologi ini membantu memastikan bahwa praktik AI dan ML mematuhi standar etika dan persyaratan hukum terkait privasi data (misalnya GDPR dan EU AI Act di Eropa). Singkatnya, meskipun persyaratan sering kali dipenuhi dengan keluhan, persyaratan ini hanya memandu kita untuk membangun model yang lebih baik yang dapat kita percayai dan andalkan untuk pengambilan keputusan penting berdasarkan data sekaligus melindungi privasi subjek data yang digunakan untuk pengembangan model. dan penyesuaian.

Adi Hirschtein adalah Wakil Presiden Produk di Teknologi Dualitas. Adi memiliki pengalaman lebih dari 20 tahun sebagai eksekutif, manajer produk, dan wirausaha yang membangun dan mendorong inovasi di perusahaan teknologi yang terutama berfokus pada startup B2B di bidang data dan AI. Sebelum Duality, Adi menjabat sebagai VP produk untuk Iguazio (perusahaan MLOps) yang diakuisisi oleh McKinsey dan sebelumnya ia menjabat sebagai Direktur produk di EMC setelah mengakuisisi startup lain bernama Zettapoint (perusahaan Database dan penyimpanan) tempat ia menjabat. sebagai VP produk yang memimpin produk dari awal hingga penetrasi dan pertumbuhan pasar.