Connect with us

LLM’lerdeki Mevcut Sorunlara Yaklaşım ve Gelecekte Neler Olacak

Düşünce Liderleri

LLM’lerdeki Mevcut Sorunlara Yaklaşım ve Gelecekte Neler Olacak

mm

Bugün, GPT-3, GPT-4, LaMDA veya Bard gibi dozens of kamu tarafından erişilebilen büyük dil modelleri (LLM’ler) mevcut ve yeni modellerin yayınlanmasıyla sayı sürekli olarak artıyor. LLM’ler yapay zekayı devrimleştirerek, çeşitli endüstrilerdeki teknolojiyle etkileşim şeklimizi tamamen değiştirdi. Bu modeller, birçok insan dil verisetinden öğrenmemize ve inovasyon, yaratıcılık ve verimlilik için yeni yollar açmamıza olanak tanır.

Ancak büyük güç, büyük karmaşıklık getirir. LLM’lerin etrafında, tam potansiyellerini kullanmadan önce ele alınması gereken içkin zorluklar ve etik sorunlar vardır. Örneğin, bir recent Stanford çalışması, ChatGPT-4’ün belirli sorgulara, özellikle ırk veya cinsiyetle ilgili olabilecek ad ve soyadları içeren sorgulara nasıl davrandığını incelediğinde ırksal ve cinsiyetçi önyargı buldu. Bu çalışmada, program, Jamal Washington adlı birinden satın alınan bir used bisiklet için ne kadar ödeme yapması gerektiği hakkında tavsiye istendi ve bu, satıcı Logan Becker olduğunda çok daha düşük bir miktar verdi. Bu keşifler devam ettikçe, LLM zorluklarını ele alma ihtiyacı sadece artıyor.

LLM’de Ortak Kaygıları Azaltma Yolları

Önyargı

LLM’ler arasında en çok tartışılan konulardan biri önyargı ve adalet. Bir recent çalışmada, uzmanlar dört yeni yayınlanan LLM’i test etti ve bunların hepsinin erkekler ve kadınlar hakkında önyargılı varsayımlar ifade ettiğini, özellikle insanların algılarına göre değil, gerçeklere dayalı olarak buldu. Bu bağlamda, önyargı, farklı sosyal gruplar arasında eşit olmayan muamele veya sonuçlara atıfta bulunur, muhtemelen tarihi veya yapısal güç dengesizliklerinden kaynaklanır.

LLM’lerde önyargı, veri seçimi, yaratıcı demografisi ve dil veya kültürel eğilimden kaynaklanabilir. Veri seçimi önyargısı, LLM eğitiminde kullanılan metinlerin web’de kullanılan dilin tam çeşitliliğini temsil etmediğinde ortaya çıkar. Sınırlı, ancak kapsamlı veri setleriyle eğitilen LLM’ler, bu metinlerde zaten var olan önyargıları miras alabilir. Yaratıcı demografisiyle, belirli demografik gruplar diğerlerine göre daha sık vurgulanır, bu da içerik oluşturmadaki çeşitlilik ve kapsayıcılığın önemini vurgular. Örneğin, Wikipedia, bir common eğitim verisi kaynağı, editörleri arasında önemli bir demografik dengesizlik gösterir (%84 erkek çoğunluk). Bu, dil ve kültür için de benzer bir eğilim gösterir. LLM’lerin eğitildiği birçok kaynak, İngilizce merkezli bir eğilim gösterir, bu da diğer diller ve kültürler için her zaman doğru bir şekilde çevrilmez.

LLM’lerin süzülmüş verilerle eğitilmesi ve belirli konuları bastırmak için koruma önlemlerinin alınması zorunludur. Bunu yapmak için bir yol, veri artırma tabanlı tekniklerdir. Eğitim verilerine temsil edilmeyen gruplardan örnekler ekleyerek, verisetinin çeşitliliğini genişletebilirsiniz. Bir başka azaltma taktiği, veri süzme ve ağırlıklandırma, temel olarak mevcut bir veriseti içinde belirli, temsil edilmeyen örnekleri hedef almaya odaklanır.

Hayaller

LLM’lerin bağlamında, hayaller, dilbilgisi açısından doğru ve anlamlı görünse de, gerçeğe uygunluk veya kaynak materyalin amacından sapma gösteren metin üretimi ile karakterize edilen bir olgudur. Aslında, recent raporlar, bir Minnesota yasası üzerindeki bir davanın doğrudan LLM hayalleri tarafından etkilendiğini buldu. Yasayı desteklemek için sunulan bir yeminli beyan, ChatGPT veya başka bir LLM tarafından hayal edilmiş olabilecek olmayan kaynaklar içerebileceğini buldu. Bu hayaller, bir LLM’nin güvenilirliğini kolayca azaltabilir.

Hayallerin üç primary şekli vardır:

  1. Giriş-Çatışan Hayal: Bu, bir LLM’nin çıktısının, kullanıcı tarafından sağlanan girişten sapmasıyla gerçekleşir, bu genellikle görev talimatları ve işlenen içeriği içerir.
  2. Bağlam-Çatışan Hayal: LLM’ler, genişletilmiş diyalog veya çoklu değişim senaryolarında, içsel olarak tutarsız cevaplar üretebilir. Bu, modelin bağlamı izleme veya çeşitli etkileşimler boyunca tutarlılık koruma yeteneğinde bir eksiklik olduğunu gösterir.
  3. Gerçek-Çatışan Hayal: Bu hayal türü, bir LLM’nin, kurulu gerçek bilgilerle çelişen içerik üretmesiyle ortaya çıkar. Bu hataların kökeni çeşitli olabilir ve bir LLM’nin yaşam döngüsünün çeşitli aşamalarında ortaya çıkabilir.

Bu olgunun birçok faktörüne katkıda bulunmuştur, Örneğin, bilgi eksiklikleri, LLM’lerin pre-eğitim sırasında bilgileri doğru bir şekilde edinme veya asimile etme yeteneğinden yoksun olabileceğini açıklar. Ayrıca, eğitim verisinde önyargı veya LLM’lerin sıralı üretim stratejisi, “hayal karı” olarak adlandırılan bir şey, hayalleri yaratabilir.

Hayalleri azaltmanın yolları vardır, ancak bunlar her zaman LLM’lerin bir özelliği olacaktır. Hayaller için faydalı azaltma stratejileri, pre-eğitim sırasında (verileri süzme teknikleri kullanarak manuel olarak rafine etme) veya fine-tuning (eğitim verilerini küratifleme) sırasında olabilir. Ancak, en iyi çözüm, maliyet etkinliği ve kontrol edilebilirliği nedeniyle çıkarım sırasında azaltmadır.

Gizlilik

İnternetin yükselişiyle, kişisel bilgiler ve diğer özel verilerin artan erişilebilirliği, geniş çapta tanınan bir endişe haline geldi. Bir çalışmada, %80 Amerikan tüketicilerin, verilerinin AI modellerini eğitmek için kullanıldığından endişe duyduklarını buldu. En nổi bật LLM’lerin web sitelerinden kaynaklandığı için, bu durumun LLM’ler için nasıl bir gizlilik riski oluşturduğunu ve büyük ölçüde çözülmemiş bir sorun olarak kaldığını düşünmek zorundayız.

LLM’lerin kişisel bilgileri dağıtmaktan en basit şekilde kaçınmak, eğitim verisinden bunları temizlemektir. Ancak, LLM’lerde yer alan veri miktarı göz önüne alındığında, tüm özel bilgilerin ortadan kaldırıldığından emin olmak几乎 imkansızdır. Bir başka ortak alternatif, dışından geliştirilen modelleri kullanan organizasyonlar için, ChatGPT gibi bir hizmet yerine açık kaynaklı bir LLM’i seçmektir.

Bu yaklaşım, modelin bir kopyasının içerde dağıtılmasını sağlar. Kullanıcıların girişleri, üçüncü taraf hizmetlerine maruz kalmak yerine organizasyonun ağı içinde güvende kalır. Bu, hassas verilerin sızma riskini önemli ölçüde azaltır, ancak aynı zamanda karmaşıklığı artırır. Özel verilerin korunmasını tamamen garanti etmenin zorlukları göz önüne alındığında,仍 importante bahwa uygulama geliştiricilerinin, bu modellerin kullanıcılarını nasıl riske atabileceğini düşünmeleri gerekir.

LLM’lerin Geleceği

LLM’lerin sonraki evrimlerini, mevcut riskleri azaltarak şekillendirmeye devam ettikçe, LLM ajanlarının ortaya çıkmasını beklemeliyiz, ki bunu zaten şirketlerin H ile Runner H gibi ürünler yayınlayarak başlattıklarını görüyoruz. Saf dil modellerinden ajans mimarilerine geçiş, AI sistem tasarımı açısından bir değişikliği temsil eder; endüstri, sohbet arayüzlerinin ve basit geri çağırma-artırma üretimlerinin içkin sınırlarının ötesine geçecek. Bu yeni ajan çerçeveleri, karmaşık hedefleri atomik alt görevlere ayırabilen gelişmiş planlama modüllerine, çeşitli etkileşimler boyunca tutarlılık koruma yeteneğine ve iyi tanımlanmış API’ler aracılığıyla uzmanlaşmış araçları kullanma yeteneğine sahip olacaklar. Bu, görev otomasyonuna daha güçlü bir yaklaşımı sağlar. Mimarideki ilerleme, geleneksel LLM uygulamalarındaki görevler, akıl yürütme, araç entegrasyonu ve yürütme izleme etrafındaki ortak zorlukları azaltmaya yardımcı olur.

LLM’lerin yanı sıra, daha küçük dil modellerini eğitmeye daha fazla odaklanılacak, çünkü bunlar maliyet etkinliği, erişilebilirliği ve dağıtım kolaylığı nedeniyle daha avantajlıdır. Örneğin, alan spesifik dil modelleri, belirli endüstriler veya alanlarda uzmanlaşmıştır. Bu modeller, alan spesifik veriyle ve terminolojiyle ince ayarlanır, bu da onları karmaşık ve düzenlenmiş ortamlar, örneğin tıp veya hukuk alanları, için ideal kılar, burada kesinlik esastır. Bu hedefe yönelik yaklaşım, genel amaçlı modellerin uzmanlaşmış içerikle karşılaştıklarında ürettiği hataların ve hayallerin olasılığını azaltır.

LLM’lerin yeni sınırlarını keşfederken, inovasyon sınırlarını zorlamak ve geliştirme ve dağıtımıyla ilgili potansiyel riskleri ele almak ve azaltmak önemlidir. Sadece önyargı, hayaller ve gizlilikle ilgili zorlukları tanımlayarak ve proaktif bir şekilde ele alarak, LLM’lerin çeşitli alanlarda gelişmesi için daha güçlü bir temel oluşturabiliriz.

Uday Kamath, Smarsh şirketinin, iletişimlerdeki veri ve zeka alanında küresel lideri olan şirketin Baş Analitik Sorumlusudur. Rolü, konuşma AI'sinde veri bilimi ve araştırmaları yönlendirmeyi içermektedir. 25 yıldan fazla analitik gelişim deneyimine ve ölçeklenebilir makine öğrenimi alanında doktora derecesine sahip olan Kamath'ın önemli katkıları, çok sayıda dergi, konferans, kitap ve patenti kapsamaktadır. Ayrıca, Falkonry gibi ticari şirketler ve GMU'deki İnsan-Makine Ortaklığı Merkezi gibi akademik kurumlar dahil olmak üzere çeşitli varlıkların Danışma Kurulu'nda aktif bir üye olarak görev yapmaktadır.