Röportajlar
Dr. Judith Bishop, Appen’de AI Uzmanları Kıdemli Direktörü – Röportaj Serisi

Dr. Judith Bishop, APAC/ABD bölgesi için Appen’de AI Uzmanları Kıdemli Direktörüdür. Yüksek nitelikli ve deneyimli dilbilimciler, hesaplamalı dilbilimciler ve tüm insan iletişim modlarında (konuşma, yazma ve jest) uzmanlarından oluşan bir üst düzey ekibi yönetiyor ve büyütüyor, böylece kalite ve hızın eşsiz bir kombinasyonuyla AI eğitim verilerini sunuyor.
Size ilk olarak dilbilimi neler çekti?
Dilbilimi ilk olarak lisedeki favori İngilizce öğretmenimden duydum. Yabancı diller ve beşeri bilimler ile matematik ve fen konularına eşit derecede ilgi duyan bir çocuktım. Dilbilimi, dilin nasıl çalıştığıyla ilgili bir bilimdir, bu nedenle benim için bu ilgi alanlarını bir araya getirdi. Çok fazla insanın yaptığı gibi, bir kere öğrendiğimde tamamen bağımlı oldum. Düşüncelerimizi ve duygularımızı birbirimize nasıl ilettiğimizi keşfetmekten daha fazla ne olabilir? Dilbilimi, tüm dillerin ortak bir insan varlığından kaynaklandığı için genellikle benzer olan dil yapılarını keşfeder.
Aİ’de çalışmaya nasıl başladığınızın hikayesini paylaşabilir misiniz?
2004 yılından beri Appen’de dil teknoloji ürünleri ve hizmetlerinin geliştirilmesini destekliyorum. Bu süre zarfında AI, iletişim, akıl yürütme ve algı insan yeteneklerini taklit etmek ve genişletmek için kapsamlı bir çerçeve, misyon ve vizyon olarak ortaya çıktı. 2019’da benim takımım AI Uzmanları olarak kendisini yeniden markalaştırdı, dilbilimsel ve dil bilgisi bilgisinin AI girişimine kritik olduğunu kabul etti. Annotated verilerimiz, AI ürün ve hizmetleriyle insan etkileşimlerinin başarısı için temel destek sağlar.
AI’de 16 yıldan fazla süredir çalışıyorsunuz, gördüğünüz en büyük değişiklikler nelerdir?
Ana değişim, temel teknoloji geliştirmesinden uzun kuyruklu kullanım örnekleri ve uygulamalara odaklanmaya kaymıştır. Kariyerimin büyük部分inde, dil tabanlı AI’nin odağı, insan konuşma algısı ve üretimi olan temel bir dizi modeli geliştirmek ve iyileştirmekti, yani konuşma tanıma, konuşma sentezi ve doğal dil işleme. Veri kümeleri genellikle ortak etiketleme ve veri örneklem standartlarına ve kurallarına uydur, Örneğin Speecon konsorsiyumu (Tüketici Cihazları için Konuşma Tabanlı Arayüzler) tarafından geliştirilenler. Bu standartlar, temel teknoloji geliştiricilerin performanslarını ortak veri yapılarında ölçümlemelerine ve AI’nin hızlı evrimini desteklemelerine izin verdi.
Ancak AI kullanım örneklerinin son yıllarda yaygınlaşması, core AI modellerinin daha özel veri türleri için yeterli performans göstermediğini ve daha fazla ayarlamaya ihtiyaç duyduğunu gösterdi. Ayrıca, bu modeller deliberately temiz ve “standart” verilerle geliştirildiğinden, tüm insan girişlerini anlamak ve yanıtlamak için – tüm lehçeler, aksanlar, etnik kökenler, cinsiyetler ve diğer insan farklılıkları boyutları – eğitilmeleri veya güncellenmeleri gerekir.
Önyargısız verilerin makine öğrenmesindeki önemini tartışabilir misiniz?
Makine öğrenimi modelleri, denetimli, denetimsiz veya pekiştirme öğrenimi modelleri, eğitim aldıkları verilerdeki önyargıları yansıtabilir. Alyssa Simpson Rochwerger ve Wilson Pang, recent kitapları Real World AI‘de bu sorun için beberapa mükemmel örnek sağlar. Bir nüfus segmenti için yeterli eğitim verisi yoksa, AI modeli bu segment için daha az doğru olacaktır.
Başka bir ortak durumda, nüfusun temsiliyeti yeterli olabilir, ancak eğitim verisi, gerçek ancak istenmeyen dünya koşullarını yansıtan veri noktaları arasındaki korelasyonları içeriyorsa (örneğin, kadınların tam istihdam oranının daha düşük olması veya Afrikalı Amerikalıların daha yüksek bir oranında hapis cezasına çarptırılması), ortaya çıkan AI uygulamaları bu koşulları güçlendirebilir ve devam ettirebilir.
Dildeki ilişkiler, NLP uygulamalarında önyargılara neden olabilir, bu uygulamalar istatistiksel ilişkiler olan kelime gömmelerine dayanır. Eğitim verisi “o” ve “hemşire”yi “onlar” veya “o” ve “hemşire”den daha sık bir araya getirdiğinde, ortaya çıkan uygulama bir hemşireye atıfta bulunmak için tekil bir zamir seçmek zorunda kaldığında “o”yu kullanacaktır. Bu özel sorunu çözmek için araştırmacılar, recently bir ortak kullanılan kelime gömme algoritmasının cinsiyet tarafsız bir varyantı geliştirdiler, GN-GloVe.
Hassas uygulamalarda, bu önyargı sorunları kullanıcılar için yıkıcı bir etkiye sahip olabilir ve iş yatırımını yok edebilir. İyi haber, yeni, daha şeffaf ve kapsayıcı veri kümelerinin geliştirilmesinin yanı sıra, mevcut eğitim veri kümeleri ve AI uygulamalarında önyargı varlığını kontrol etmek için giderek daha fazla veri bilim uygulaması geliştiriliyor.
Appen recently launched new diverse training datasets for natural language processing (NLP) initiatives. Could you share some details on how these datasets will enable end users to receive the same experience regardless of language variety, dialect, ethnolect, accent, race or gender?
Yukarıda belirtilen nedenlerle, mevcut AI üretim sistemlerindeki mevcut önyargıları düzeltmek için veri kümelerine ihtiyaç duyulmaktadır. Appen tarafından bahsedilen veri kümeleri, Afrika Amerikan Varyant İngilizce gibi etnik kökenle ilişkili dil varyetelerini temsil edecek ek eğitim verilerini sağlayacaktır.
Etnik köken, AI verilerinin açık etiketlemesi için kritik bir demografik boyut olarak ortaya çıkıyor. Dilbilimciler, belirli etnik kökenlerle ilişkili dil varyetelerine “etnolect” der. AI veri sağlayıcıları gibi Appen, artık ana akım AI dil modellerinde bu nüfusun temsilinin yeterli olmadığı sürece, sonuçların tüm nüfus için eşit derecede iyi çalışmayacağını anlamaktadır.
Eşit performans, sistemin bir kullanıcının kelimelerini ve niyetlerini (anlamını veya gerçekleştirmek istediği eylemleri) eşit derecede doğru bir şekilde tanıyacağı ve bazı durumlarda duyguyu tanıyacağı ve kullanıcının ihtiyaçlarını eşit derecede karşılayacak şekilde yanıtlayacağı anlamına gelir ve belirli bir kullanıcı nüfusuna daha olumsuz bir etki yaratmaz, ya da pratikte ya da psikolojik olarak.
Uzun süredir devam eden bir veri toplama yaklaşımı, coğrafi ve lehçeye göre temsil edilen örneklemeye odaklanmaktı – bu, teknolojinin tüm dil konuşmacıları nüfusuna genelleştirileceğini garantileyecekti. Ancak dil teknolojilerinin recent olarak Afrika Amerikan Varyant İngilizce konuşmacıları için daha düşük performans gösterdiği belgelenmiştir, bu yaklaşımın yeterli olmadığı anlamına gelir. Etnik köken, ırk, cinsiyet ve aksan gibi boyutlarda çeşitli nüfuslar, AI ürün ve hizmetlerinin tüm kullanıcılar için eşit derecede iyi çalışmasını sağlamak için proaktif olarak eğitim veri kümelerine dahil edilmelidir. Appen’in çeşitli AI eğitim veri kümeleri bu ihtiyaca cevap vermektedir.
Dışında AI, ayrıca çeşitli endüstri ödülleri kazanan several şiirlerin yazarısınız. Gelecekteki AI’nin bu tür yaratıcılığı sergileyeceği görüşünüz nedir, şiir yazma dahil?
Bu, ilginç bir soru. Şiir ve diğer insan yaratıcılık biçimleri, anı, algı, duyu ve duygu gibi tüm insan kaynaklarını kullanır ve dil ve görüntü yapılarını kullanarak, çağdaş endişelerle rezonansa giren içgörüler üretir. Emily Dickinson, “Bir kitap okuyorum ve tüm vücudumun öyle soğuk olmasına rağmen hiçbir ateş onu ısıtamaz, biliyorum ki bu şiirdir. Eğer fiziksel olarak başımın tepesinin alınmış olduğunu hissediyorsam, biliyorum ki bu şiirdir” diye yazdı. Algısal, duyusal veya duygusal bir tanıma olmalı, ancak aynı zamanda gerçek bir sürpriz olmalıdır.
GPT-3 gibi gelişmiş AI modelleri, çeşitli türlerde, şiir dahil, birlikte ortaya çıkan kelimelerin olasılığını istatistiksel olarak modelleyebilir. Bu, “şiirsel” dili üretmelerine olanak tanır, Örneğin yükseltilmiş sözcük seçimi, uyak ve beklenmedik veya surrealist kelime kombinasyonları. Ancak bu üretken dil modelleri, bir sanat eseri olarak insanlığın anlamına ışık tutmak için gerekli kaynakların çoğuna sahip değildir.
Yaratıcı bir bağlamda AI’nin ilginç bulduğum şeyi, tamamen yeni içgörüler üretme potansiyelidir – insan aklının erişebileceği türden farklı olan içgörüler. AI, geniş bir insan alanı boyunca (görsel, dokunsal, işitsel, fizyolojik, duygusal) duyusal ve algısal verileri analiz etmek için sürekli erişim sağladığında, kendimiz ve dünya hakkında neler öğreneceğimizi bilemeyiz. AI’nin analitik yetenekleri, insan keşfi için yeni ve verimli alanlar üretebilir.
AI ve özellikle STEM’e daha fazla kadının katılmasını engelleyen şey nedir?
Roller modelinin eksikliği güçlü bir faktör olabilir (ve bir self-fulfilling prophecy). Kültür, sosyal ve pratik olarak, kadınların ve diğer çeşitli cinsiyetlerin henüz derinlemesine bir varlığı olmayan alanlara girmesi zor olabilir ve burada katkıda bulunabileceklerine olan saygı genellikle yetersizdir. Lider olarak kendi deneyimim, bana zaman zaman göstermiştir ki, çeşitli deneyimler ve perspektifleri kapsayan ekipler ne kadar dayanıklı, yaratıcı ve başarılı olabilir. Liderler, işe alımında maceracı ve düşünce şekillerine meydan okuyan çeşitli perspektifleri getirebileceklerine güvenlerinde cesur olmalıdır, bu cesaretin finansal ve kurumsal başarı ile güçlü bir şekilde ilişkili olduğu kanıtlanmıştır.
Appen veya AI hakkında paylaşmak istediğiniz başka bir şey var mı?
Veri sağlayıcıları gibi Appen, kapsayıcı eğitim verilerini sağlayarak AI sonuçlarını iyileştirmek için güçlü bir potansiyele sahiptir.
Ancak kapsayıcı AI’ye ulaşmak, herkesin katılımını gerektirecektir. Veri alıcıları, optimal performansını garantilemek için kapsayıcı verilerin açıkça talep edildiğini ve ödendiğini tanımak zorundadır. AI geliştirme için veri sağlayan çeşitli topluluklardan gelenler, verilerinin hangi amaçla kullanılacağını güvenle bilebilmelidir. Bu güveni oluşturmak, tüm hassas verileri işleyenlerin şeffaflık ve etik uygulamalarına ihtiyaç duyacaktır.
Harika bir röportaj için teşekkür ederim, AI ve dilbilim hakkındaki görüşlerinizi daha fazla öğrenmekten keyif aldım. Daha fazla bilgi edinmek isteyen okuyucular Appen‘i ziyaret edebilir.












