Connect with us

Wawancara

Dr. Judith Bishop, Direktur Senior Spesialis AI di Appen – Seri Wawancara

mm

Dr. Judith Bishop, adalah Direktur Senior Spesialis AI untuk wilayah APAC/AS di Appen. Ia memimpin dan mengembangkan tim yang terdiri dari ahli bahasa, ahli linguistik komputasi, dan ahli dalam semua mode komunikasi manusia (percakapan, penulisan, dan gerakan), untuk menyediakan data pelatihan AI dengan kombinasi kualitas dan kecepatan yang tak tertandingi.

Apa yang awalnya menarik Anda untuk mempelajari linguistik?

Saya pertama kali mendengar tentang linguistik dari seorang guru bahasa Inggris favorit di sekolah menengah. Saya adalah salah satu anak yang sama-sama tertarik dengan bahasa asing dan humaniora, dan matematika serta ilmu pengetahuan. Linguistik adalah ilmu tentang bagaimana bahasa bekerja, sehingga menghubungkan minat saya. Seperti banyak orang, setelah saya mempelajari tentang linguistik, saya langsung terpesona. Apa yang bisa lebih menarik daripada bagaimana kita berkomunikasi pikiran dan perasaan kita kepada satu sama lain? Linguistik menjelajahi struktur bahasa yang, meskipun ada perbedaan dalam suara dan sistem penulisan, seringkali sama di bawah permukaan, karena semua merupakan produk dari keberadaan manusia yang sama.

Apakah Anda bisa berbagi cerita tentang bagaimana Anda menemukan diri Anda bekerja di AI?

Saya telah bekerja di Appen sejak 2004 untuk mendukung pengembangan produk dan layanan teknologi bahasa. Selama waktu ini, AI telah muncul sebagai kerangka komprehensif, misi, dan visi untuk teknologi yang meniru dan memperluas kemampuan manusia dalam berkomunikasi, bernalar, dan memahami. Pada 2019, tim saya mengubah nama menjadi Spesialis AI, mengakui bahwa pengetahuan linguistik dan bahasa kami sangat penting bagi perusahaan AI. Data yang kami anotasi menyediakan dukungan penting untuk kesuksesan interaksi manusia dengan produk dan layanan AI.

Anda telah bekerja di AI selama lebih dari 16 tahun, apa saja perubahan besar yang Anda lihat?

Perubahan besar adalah diversifikasi fokus dari pengembangan teknologi inti ke penggunaan dan aplikasi yang lebih luas. Selama sebagian besar karir saya, fokus AI berbasis bahasa adalah mengembangkan dan memperbaiki model inti yang meniru persepsi dan produksi ucapan manusia, yaitu pengenalan ucapan, sintesis ucapan, dan pemrosesan bahasa alami. Dataset biasanya sesuai dengan standar pelabelan dan pengambilan sampel data yang umum dan konvensi, seperti yang dikembangkan oleh konsorsium Speecon (Antarmuka Berbasis Ucapan untuk Perangkat Konsumen). Standar ini memungkinkan pengembang teknologi inti untuk membandingkan kinerja mereka pada struktur data yang sama dan mendukung evolusi AI yang cepat.

Namun, ekspansi luas penggunaan AI dalam beberapa tahun terakhir telah membawa pengakuan bahwa model AI generik yang dibangun dengan data ini tidak bekerja dengan baik pada jenis data yang lebih khusus tanpa penyetelan lebih lanjut. Selain itu, karena model ini dikembangkan pada data yang sengaja dibersihkan dan ‘standar’, model ini harus dilatih atau diperbarui untuk memahami dan merespons semua keanekaragaman input manusia: semua dialek, semua aksen, semua etnis, semua jenis kelamin, dan semua dimensi perbedaan manusia lainnya.

Apakah Anda bisa membahas pentingnya data yang tidak bias dalam pembelajaran mesin?

Model pembelajaran mesin, apakah itu model pembelajaran terawasi, tidak terawasi, atau pembelajaran penguatan, akan mencerminkan bias yang ada dalam data yang digunakan untuk melatihnya. Alyssa Simpson Rochwerger dan Wilson Pang menyediakan beberapa contoh yang sangat baik tentang masalah ini dalam buku mereka yang baru, Real World AI. Jika ada data pelatihan yang tidak cukup untuk segmen populasi, model AI akan kurang akurat untuk segmen tersebut.

Dalam kasus lain, representasi populasi mungkin cukup, tetapi jika data pelatihan mengandung korelasi antara titik data yang mencerminkan kondisi yang tidak diinginkan di dunia nyata (seperti tingkat pengangguran penuh yang lebih rendah untuk perempuan, atau tingkat penjara yang lebih tinggi untuk Afrika-Amerika), aplikasi AI yang dihasilkan dapat memperkuat dan mempertahankan kondisi tersebut.

Asosiasi yang ada dalam bahasa secara umum dapat menciptakan bias dalam aplikasi NLP, yang bergantung pada hubungan statistik yang dikenal sebagai word embeddings. Jika ‘dia’ dan ‘perawat’ lebih sering terkait dalam data pelatihan yang dipilih daripada ‘mereka’ atau ‘dia’ dan ‘perawat’, maka aplikasi yang dihasilkan akan menggunakan ‘dia’ ketika dipaksa untuk memilih kata ganti tunggal untuk merujuk pada seorang perawat. Untuk menangani masalah khusus ini, peneliti telah mengembangkan varian netral gender dari algoritma word embedding yang umum digunakan, GN-GloVe.

Dalam aplikasi yang sensitif, masalah bias seperti ini dapat memiliki dampak yang menghancurkan pada pengguna dan dapat menghilangkan investasi bisnis. Kabar baiknya adalah bahwa, selain pengembangan dataset yang lebih transparan dan inklusif, sejumlah besar aplikasi ilmu data sedang dikembangkan untuk memeriksa keberadaan bias dalam dataset pelatihan dan aplikasi AI yang ada.

Appen baru-baru ini meluncurkan dataset pelatihan yang beragam untuk inisiatif pemrosesan bahasa alami (NLP). Apakah Anda bisa berbagi beberapa detail tentang bagaimana dataset ini akan memungkinkan pengguna akhir untuk menerima pengalaman yang sama tanpa memandang variasi bahasa, dialek, etnolek, aksen, ras, atau jenis kelamin?

Karena alasan yang disebutkan di atas, dataset diperlukan untuk memperbaiki bias yang ada dalam sistem produksi AI, serta dataset yang lebih inklusif untuk melatih sistem di masa depan. Dataset Appen yang Anda sebutkan akan mendukung koreksi bias yang terkait dengan etnis dan etnolek yang terkait, seperti Bahasa Inggris Vernakular Afrika-Amerika. Mereka akan menyediakan data pelatihan tambahan untuk meningkatkan representasi populasi ini dalam model bahasa AI.

Etnisitas mulai muncul sebagai dimensi demografi yang kritis untuk pelabelan eksplisit dalam data AI. Ahli bahasa menyebut varietas bahasa yang terkait dengan etnis tertentu sebagai ‘etnolek’. Penyedia data AI seperti Appen sekarang mengakui bahwa kecuali populasi kunci yang beragam dan minoritas diwakili secara eksplisit dalam dataset pelatihan AI, kita tidak dapat memastikan bahwa sistem yang dihasilkan berfungsi dengan baik untuk populasi ini.

Kinerja yang sama berarti sistem mengenali dengan akurasi yang sama kata-kata dan niat pengguna (maksud mereka, atau tindakan yang ingin mereka capai) dan dalam beberapa kasus, sentimen; dan bahwa sistem merespons dengan cara yang memuaskan kebutuhan pengguna dan tidak menghasilkan dampak negatif yang lebih besar pada populasi pengguna tertentu, baik secara praktis maupun psikologis.

Pendekatan pengumpulan data yang mapan telah fokus pada sampling geografis dan dialektal yang representatif dalam database – mengasumsikan ini akan memastikan teknologi akan umum untuk seluruh populasi penutur bahasa. Namun, kinerja yang relatif lebih buruk dari teknologi bahasa yang baru-baru ini didokumentasikan untuk penutur Bahasa Inggris Vernakular Afrika-Amerika telah menunjukkan bahwa ini tidak benar. Populasi yang beragam dalam etnis, ras, jenis kelamin, dan aksen, antara lain, perlu diikutsertakan secara proaktif dalam dataset pelatihan untuk memastikan suara mereka didengar dan dipahami oleh produk dan layanan AI. Dataset pelatihan AI yang beragam dari Appen menangani kebutuhan ini.

Di luar AI, Anda juga seorang penyair dengan beberapa puisi yang memenangkan penghargaan industri yang berbeda. Apa pandangan Anda tentang AI di masa depan yang menunjukkan kreativitas seperti ini, termasuk menulis puisi?

Itu adalah pertanyaan yang menarik. Puisi dan bentuk kreativitas manusia lainnya mengandalkan semua sumber daya manusia, seperti memori, persepsi, sensasi, dan emosi, serta struktur dan nuansa bahasa dan gambar, untuk menghasilkan wawasan yang beresonansi dengan kekhawatiran kontemporer. Emily Dickinson menulis, “Jika saya membaca buku dan itu membuat seluruh tubuh saya begitu dingin sehingga tidak ada api yang dapat menghangatkannya, saya tahu itu adalah puisi. Jika saya merasa secara fisik seolah-olah bagian atas kepala saya telah diambil, saya tahu itu adalah puisi.” Harus ada unsur pengakuan perseptual, sensorik, atau emosional, tetapi juga kejutan yang sebenarnya.

Model AI yang canggih seperti GPT-3 secara statistik memodelkan kemungkinan kata-kata muncul bersama dalam berbagai genre, termasuk puisi. Ini berarti mereka dapat menghasilkan sesuatu yang kita kenali sebagai “bahasa puisi”, seperti penggunaan diksi yang ditingkatkan, rima, dan kombinasi kata yang tidak terduga atau surealis. Namun, model bahasa generatif ini kekurangan sebagian besar sumber daya yang disebutkan di atas, yang diperlukan untuk menghasilkan karya seni yang menerangi apa yang dimaksud dengan menjadi manusia pada saat ini.

Apa yang saya temukan sangat menarik tentang AI dalam konteks kreatif adalah potensinya untuk menghasilkan wawasan yang sama sekali baru – wawasan yang berbeda dalam jenis dan di luar jangkauan pikiran manusia mana pun, bahkan pikiran yang paling polymathic atau mendalam dan berpengalaman. Begitu AI secara konsisten memiliki akses ke data sensorik dan perseptual untuk analisis di seluruh domain manusia (visual, taktil, auditori, fisiologis, emosional), tidak ada yang tahu apa yang akan kita pelajari tentang diri kita sendiri dan dunia. Kemampuan analitis AI mungkin menghasilkan tanah yang subur baru untuk eksplorasi kreatif manusia.

Anda telah memiliki karir yang luar biasa hingga saat ini, menurut Anda apa yang menghambat lebih banyak perempuan untuk bergabung dengan STEM dan khususnya AI?

Kurangnya teladan dapat menjadi faktor yang kuat (dan lingkaran setan). Ada kesulitan yang nyata – budaya, sosial, dan praktis – dalam memasuki bidang di mana perempuan, dan orang dengan jenis kelamin yang beragam, belum memiliki kehadiran yang mapan, dan di mana rasa hormat terhadap apa yang dapat mereka sumbangkan seringkali kurang. Pengalaman saya sebagai pemimpin telah menunjukkan kepada saya berulang kali bahwa tim yang tangguh, kreatif, dan sukses dapat dibentuk ketika mereka inklusif terhadap pengalaman dan orientasi yang beragam. Pemimpin perlu berani dalam perekrutan dan berani dalam keyakinan bahwa mereka dapat menangani tantangan terhadap cara berpikir mereka yang dibawa oleh perspektif yang beragam, mengetahui bahwa keberanian ini juga telah terbukti sangat terkait dengan kesuksesan keuangan dan perusahaan.

Apakah ada yang lain yang Anda ingin bagikan tentang Appen atau AI secara umum?

Penyedia data seperti Appen memiliki potensi yang kuat untuk mempengaruhi hasil AI untuk lebih baik dengan menyediakan data pelatihan yang inklusif.

Namun, mencapai tujuan AI yang inklusif akan memerlukan semua orang untuk berpartisipasi. Pembeli data juga harus mengakui tanggung jawab mereka untuk secara eksplisit meminta – dan membayar – untuk data yang inklusif yang akan memastikan kinerja optimal sistem mereka untuk semua pengguna di dunia nyata. Dan mereka yang dari komunitas yang beragam yang menyediakan data mereka untuk pengembangan AI harus dapat mempercayai penggunaan data tersebut. Membangun kepercayaan ini akan memerlukan transparansi yang kuat dan praktik etis dari semua yang menangani data sensitif.

Terima kasih atas wawancara yang luar biasa, saya menikmati mempelajari lebih lanjut tentang pandangan Anda tentang AI dan linguistik. Pembaca yang ingin mempelajari lebih lanjut harus mengunjungi Appen.

Antoine adalah seorang pemimpin visioner dan mitra pendiri Unite.AI, didorong oleh semangat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Seorang wirausaha serial, ia percaya bahwa AI akan sama-sama mengganggu masyarakat seperti listrik, dan sering tertangkap berbicara tentang potensi teknologi mengganggu dan AGI.

As a futurist, ia berdedikasi untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Securities.io, sebuah platform yang fokus pada investasi di teknologi-teknologi canggih yang mendefinisikan kembali masa depan dan membentuk kembali seluruh sektor.