Yapay Zeka

MARKLLM: Yüksek Lisans Filigranlaması için Açık Kaynak Araç Takımı

Yayınlanan Temmuz 9, 2024

Kunal Kejriwal

MARKLLM: Yüksek Lisans Filigranlaması için Açık Kaynak Araç Takımı

LLM'ler tarafından oluşturulan metni tanımlamak için model çıktıları içindeki algılanamayan ancak tespit edilebilir sinyalleri birleştiren LLM filigranı, büyük dil modellerinin kötüye kullanılmasını önlemek için hayati öneme sahiptir. Bu filigran teknikleri temel olarak iki kategoriye ayrılır: KGW Ailesi ve İsa Ailesi. KGW Ailesi, kelime dağarcığını bir önceki simgeye göre bir yeşil liste ve bir kırmızı liste halinde kategorize ederek filigranlı çıktı oluşturmak için LLM tarafından üretilen logitleri değiştirir. Bias, metin oluşturma sırasında yeşil liste belirteçlerinin logitlerine tanıtılır ve üretilen metinde bu belirteçleri tercih eder. Daha sonra yeşil kelimelerin oranından istatistiksel bir ölçüm hesaplanır ve filigranlı ve filigransız metin arasında ayrım yapmak için bir eşik belirlenir. KGW yöntemindeki geliştirmeler arasında iyileştirilmiş liste bölümleme, daha iyi logit manipülasyonu, artırılmış filigran bilgi kapasitesi, filigran kaldırma saldırılarına karşı direnç ve filigranları herkese açık olarak tespit etme yeteneği yer alır.

Bunun tersine, Christ Ailesi, LLM metin üretimi sırasında örnekleme sürecini değiştirir ve belirteçlerin seçilme şeklini değiştirerek bir filigran ekler. Her iki filigran ailesi de filigran tespit edilebilirliğini metin kalitesiyle dengelemeyi, değişen entropi ayarlarında sağlamlık, filigran bilgi kapasitesinin arttırılması ve kaldırma girişimlerine karşı koruma gibi zorlukların üstesinden gelmeyi amaçlamaktadır. Son araştırmalar, liste bölümleme ve logit manipülasyonunun iyileştirilmesine, filigran bilgi kapasitesinin arttırılmasına, filigranın kaldırılmasına direnecek yöntemler geliştirilmesine ve kamuya açık tespitin sağlanmasına odaklanmıştır. Sonuçta, LLM filigranlaması etik ve sorumlu kullanım için çok önemlidir. büyük dil modelleriLLM tarafından oluşturulan metni izlemek ve doğrulamak için bir yöntem sağlar. KGW ve İsa Aileleri, her biri benzersiz güçlere ve uygulamalara sahip, devam eden araştırma ve yeniliklerle sürekli gelişen iki farklı yaklaşım sunar.

LLM filigranlama çerçevelerinin, bir LLM çerçevesi tarafından oluşturulan metni tanımlamak için model çıktılarına algoritmik olarak algılanabilir sinyaller yerleştirme yeteneği sayesinde, büyük dil modellerinin kötüye kullanılmasıyla ilişkili risklerin azaltılmasında çok önemli bir rol oynamaktadır. Bununla birlikte, piyasada şu anda her birinin kendi bakış açısı ve değerlendirme prosedürleri olan çok sayıda LLM filigranlama çerçevesi bulunmaktadır ve bu da araştırmacıların bu çerçevelerle kolayca deney yapmasını zorlaştırmaktadır. Bu soruna karşı koymak için, filigranlama için açık kaynaklı bir araç seti olan MarkLLM, kullanım ve erişim kolaylığı sağlamak için kullanıcı dostu arayüzler sağlarken LLM filigranlama algoritmalarını uygulamak için genişletilebilir ve birleşik bir çerçeve sunar. Ayrıca MarkLLM çerçevesi, bu çerçevelerin mekanizmalarının otomatik olarak görselleştirilmesini destekleyerek bu modellerin anlaşılırlığını artırır. MarkLLM çerçevesi, performansını değerlendirmek için iki otomatik değerlendirme hattının yanı sıra üç perspektifi kapsayan 12 araçtan oluşan kapsamlı bir paket sunar. Bu makale MarkLLM çerçevesini derinlemesine ele almayı amaçlamaktadır ve çerçevenin mekanizmasını, metodolojisini, mimarisini ve en son teknoloji çerçevelerle karşılaştırmasını araştırıyoruz. Öyleyse başlayalım.

MarkLLM: Bir LLM Filigranlama Araç Seti

LLaMA, GPT-4, ChatGPT ve daha fazlası gibi büyük dil modeli çerçevelerinin ortaya çıkışı, yapay zeka modellerinin yaratıcı yazma, içerik anlama, formasyona erişim ve çok daha fazlası dahil olmak üzere belirli görevleri yerine getirme yeteneğini önemli ölçüde geliştirdi. Bununla birlikte, mevcut büyük dil modellerinin olağanüstü yeterliliğiyle ilişkili dikkate değer faydaların yanı sıra, akademik makalelerde hayalet yazılar, LLM'nin oluşturduğu sahte haberler ve tasvirler ve bireysel taklitler gibi bazı riskler de su yüzüne çıktı. Bu sorunlarla ilişkili riskler göz önüne alındığında, LLM tarafından oluşturulan içerik ile insan içeriği arasında ayrım yapma kapasitesine sahip güvenilir yöntemler geliştirmek hayati önem taşımaktadır; bu, içeriğin orijinalliğini sağlamak için önemli bir gerekliliktir. dijital iletişimve yanlış bilgilerin yayılmasını önleyin. Son birkaç yıldır LLM filigranı, LLM tarafından oluşturulan içeriği insan içeriğinden ayırt etmek için umut verici çözümlerden biri olarak öneriliyor ve metin oluşturma süreci sırasında farklı özelliklerin dahil edilmesiyle LLM çıktıları, özel olarak tasarlanmış dedektörler kullanılarak benzersiz bir şekilde tanımlanabilir. Bununla birlikte, LLM filigranlama çerçevelerinin çoğalması ve nispeten karmaşık algoritmalarının yanı sıra değerlendirme ölçümlerinin ve perspektiflerinin çeşitlenmesi nedeniyle, bu çerçevelerle denemeler yapılması inanılmaz derecede zor hale gelmiştir.

Mevcut boşluğu kapatmak için MarkLLM çerçevesi aşağıdaki katkıları sağlamaya çalışmaktadır. MARKLLM algoritmaların yüklenmesi, filigranlı metinlerin oluşturulması, algılama süreçlerinin yürütülmesi ve görselleştirme için veri toplanması için tutarlı ve kullanıcı dostu arayüzler sunar. Her iki ana filigran algoritması ailesi için özel görselleştirme çözümleri sunarak kullanıcıların, gerçek dünyadan örneklerle farklı algoritmaların çeşitli yapılandırmalar altında nasıl çalıştığını görmelerine olanak tanır. Araç seti, tespit edilebilirliği, sağlamlığı ve metin kalitesi etkisini ele alan 12 araçtan oluşan kapsamlı bir değerlendirme modülü içerir. Ek olarak, veri kümelerinin, modellerin, değerlendirme ölçümlerinin ve saldırıların kullanıcı tarafından özelleştirilmesini destekleyen, esnek ve kapsamlı değerlendirmeleri kolaylaştıran iki tür otomatik değerlendirme hattı içerir. Modüler, gevşek bağlantılı bir mimariyle tasarlanan MARKLLM, ölçeklenebilirliği ve esnekliği artırır. Bu tasarım seçimi, yeni algoritmaların, yenilikçi görselleştirme tekniklerinin entegrasyonunu ve değerlendirme araç setinin gelecekteki geliştiriciler tarafından genişletilmesini destekler.

Çok sayıda filigranlama algoritması önerilmiştir, ancak bunların benzersiz uygulama yaklaşımları genellikle standartlaştırma yerine belirli gereksinimlere öncelik verir ve bu da çeşitli sorunlara yol açar.

Sınıf Tasarımında Standardizasyon Eksikliği: Bu, yeterince standartlaştırılmamış sınıf tasarımları nedeniyle mevcut yöntemleri optimize etmek veya genişletmek için önemli çaba gerektirir.
Üst Düzey Arama Arayüzlerinde Tekdüzelik Eksikliği: Tutarsız arayüzler, toplu işlemeyi ve farklı algoritmaların çoğaltılmasını hantal ve emek yoğun hale getirir.
Kod Standardı Sorunları: Zorluklar arasında birden fazla kod segmentindeki ayarları değiştirme ihtiyacı ve tutarsız belgeler, karmaşık özelleştirme ve etkili kullanım yer alıyor. Sabit kodlanmış değerler ve tutarsız hata işleme, uyarlanabilirliği ve hata ayıklama çabalarını daha da engeller.

Bu sorunları çözmek için araç setimiz, çeşitli son teknoloji algoritmaların esnek konfigürasyonlar altında uygun şekilde başlatılmasını sağlayan birleşik bir uygulama çerçevesi sunar. Ayrıca titizlikle tasarlanmış sınıf yapımız gelecekteki genişlemelerin de önünü açıyor. Aşağıdaki şekil bu birleşik uygulama çerçevesinin tasarımını göstermektedir.

Çerçevenin dağıtıcı tasarımı nedeniyle, geliştiricilerin, diğer algoritmaları etkileme endişesi olmaksızın herhangi bir spesifik filigran algoritması sınıfına ek üst düzey arayüzler eklemesi kolaydır.

MarkLLM : Mimarlık ve Metodoloji

LLM filigran teknikleri temel olarak iki kategoriye ayrılır: KGW Ailesi ve İsa Ailesi. KGW Ailesi, kelime dağarcığını bir önceki simgeye göre bir yeşil liste ve bir kırmızı liste halinde kategorize ederek filigranlı çıktı oluşturmak için LLM tarafından üretilen logitleri değiştirir. Bias, metin oluşturma sırasında yeşil liste belirteçlerinin logitlerine tanıtılır ve üretilen metinde bu belirteçleri tercih eder. Daha sonra yeşil kelimelerin oranından istatistiksel bir ölçüm hesaplanır ve filigranlı ve filigransız metin arasında ayrım yapmak için bir eşik oluşturulur. KGW yöntemindeki geliştirmeler arasında iyileştirilmiş liste bölümleme, daha iyi logit manipülasyonu, artırılmış filigran bilgi kapasitesi, filigran kaldırma saldırılarına karşı direnç ve filigranları herkese açık olarak tespit etme yeteneği yer alır.

Otomatik Kapsamlı Değerlendirme

Bir LLM filigran algoritmasını değerlendirmek karmaşık bir iştir. İlk olarak, filigranın tespit edilebilirliği, kurcalamaya karşı dayanıklılık ve metin kalitesi üzerindeki etkisi dahil olmak üzere çeşitli hususların dikkate alınmasını gerektirir. İkinci olarak, her perspektiften yapılacak değerlendirmeler farklı ölçümler, saldırı senaryoları ve görevler gerektirebilir. Ayrıca, bir değerlendirmenin yürütülmesi tipik olarak model ve veri kümesi seçimi, filigranlı metin oluşturma, son işleme, filigran tespiti, metinde değişiklik yapma ve metrik hesaplama gibi birden fazla adımı içerir. LLM filigranlama algoritmalarının rahat ve kapsamlı bir şekilde değerlendirilmesini kolaylaştırmak için MarkLLM, yukarıda bahsedilen üç değerlendirme perspektifini kapsayan çeşitli metrik hesaplayıcılar ve saldırganlar dahil olmak üzere on iki kullanıcı dostu araç sunar. Ek olarak MARKLLM, modülleri esnek bir şekilde özelleştirilebilen ve monte edilebilen, kolay konfigürasyon ve kullanıma olanak tanıyan iki tür otomatik demo hattı sağlar..

Tespit edilebilirlik açısından çoğu filigranlama algoritması, filigranlı ve filigransız metinleri ayırt etmek için sonuçta bir eşik belirtmeyi gerektirir. Sabit bir eşik kullanan temel bir başarı oranı hesaplayıcısı sağlıyoruz. Ayrıca eşik seçiminin tespit edilebilirlik üzerindeki etkisini en aza indirmek için dinamik eşik seçimini destekleyen bir hesaplayıcı da sunuyoruz. Bu araç, en iyi F1 puanını veren eşiği belirleyebilir veya kullanıcı tarafından belirlenen hedef yanlış pozitif oranına (FPR) dayalı olarak bir eşik seçebilir.

Sağlamlık açısından, MARKLLM üç kelime düzeyinde metin kurcalama saldırısı sunar: belirli bir oranda rastgele kelime silme, eşanlamlı kümesi olarak WordNet'i kullanan rastgele eşanlamlı değiştirme ve yerleştirme modeli olarak BERT'i kullanan bağlama duyarlı eşanlamlı değiştirme. Ek olarak, belge düzeyinde iki metin tahrifat saldırısı sağlanmıştır: OpenAI API veya Dipper modeli aracılığıyla bağlamın başka sözcüklerle ifade edilmesi. Metin kalitesi açısından MARKLLM iki doğrudan analiz aracı sunar: akıcılığı ölçmek için bir şaşkınlık hesaplayıcısı ve metinlerin değişkenliğini değerlendirmek için bir çeşitlilik hesaplayıcısı. Belirli alt görevlerde filigranlamanın metin kullanımı üzerindeki etkisini analiz etmek amacıyla, makine çevirisi görevleri için bir BLEU hesaplayıcı ve kod oluşturma görevleri için başarılı ya da başarısız bir değerlendirici sağlıyoruz. Ek olarak, filigranlı ve filigransız metnin kalitesini karşılaştırmaya yönelik, yargılama için daha güçlü bir LLM'nin kullanılmasını içeren mevcut yöntemler göz önüne alındığında, MarkLLM ayrıca metin kalitesini karşılaştırmak için GPT-4'ü kullanan bir GPT ayırıcısı da sunar.

Değerlendirme İşlem Hatları

LLM filigranlama algoritmalarının otomatik olarak değerlendirilmesini kolaylaştırmak için MARKLLM iki değerlendirme hattı sağlar: biri saldırılarla ve saldırılar olmadan filigran tespit edilebilirliğini değerlendirmek için, diğeri ise bu algoritmaların metin kalitesi üzerindeki etkisini analiz etmek için. Bu sürecin ardından iki boru hattını hayata geçirdik: WMDetect3 ve UWMDetect4. Aralarındaki temel fark metin oluşturma aşamasında yatmaktadır. İlki, filigran algoritmasından created_watermarked_text yönteminin kullanılmasını gerektirirken ikincisi, doğal metnin bir veri kümesinden doğrudan alınıp alınmayacağına veya created_unwatermarked_text yönteminin çağrılacağına karar vermek için text_source parametresine bağlıdır.

Filigranlamanın metin kalitesi üzerindeki etkisini değerlendirmek için filigranlı ve filigransız metin çiftleri oluşturulur. Daha sonra metinler, diğer gerekli girdilerle birlikte işlenir ve ayrıntılı analiz ve karşılaştırma sonuçları üretmek için belirlenmiş bir metin kalitesi analiz cihazına beslenir. Bu süreci takiben, farklı değerlendirme senaryoları için üç işlem hattı uyguladık:

DirectQual.5: Bu işlem hattı, filigranlı metinlerin özelliklerini filigransız metinlerin özellikleriyle doğrudan karşılaştırarak metinlerin kalitesini analiz etmek için özel olarak tasarlanmıştır. Herhangi bir dış referans metnine ihtiyaç duymadan şaşkınlık (PPL) ve log çeşitliliği gibi metrikleri değerlendirir.
RefQual.6: Bu işlem hattı, hem filigranlı hem de filigransız metinleri ortak bir referans metniyle karşılaştırarak metin kalitesini değerlendirir. Referans metninden benzerlik veya sapma derecesini ölçerek, makine çevirisi ve kod oluşturma gibi metin kalitesini değerlendirmek için belirli alt görevler gerektiren senaryolar için idealdir.
ExDisQual.7: Bu işlem hattı, hem filigranlı hem de filigransız metinlerin kalitesini değerlendirmek için GPT-4 (OpenAI, 2023) gibi harici bir değerlendirici kullanır. Ayırıcı, metinleri kullanıcı tarafından sağlanan görev tanımlarına göre değerlendirir ve filigran nedeniyle kalitenin korunması veya potansiyel bozulmasını belirler. Bu yöntem özellikle filigranın ince etkilerinin gelişmiş, yapay zeka tabanlı analizinin gerekli olduğu durumlarda değerlidir.

MarkLLM: Deneyler ve Sonuçlar

MarkLLM çerçevesi, performansını değerlendirmek için dokuz farklı algoritma üzerinde değerlendirmeler yapar ve bunların metnin kalitesi üzerindeki etkisini, sağlamlığını ve tespit edilebilirliğini değerlendirir.

Yukarıdaki tablo MarkLLM'de desteklenen dokuz algoritmanın tespit edilebilirliğini değerlendirmenin değerlendirme sonuçlarını içermektedir. Filigran tespit edilebilirliğini değerlendirmek için dinamik eşik ayarı kullanılır ve sağlanan üç ayar bulunur: %10'luk hedef FPR altında, %1'lik hedef FPR altında ve optimum F1 puanı performansı koşulları altında. 200 filigranlı metin oluşturulurken, 200 filigransız metin negatif örnek olarak hizmet vermektedir. Optimum performansta TPR, TNR, FPR, FNR, P, R, F1, ACC'nin yanı sıra %10 ve %1 FPR için dinamik eşik ayarlamaları altında TPR ve F1 skoru sağlıyoruz. Aşağıdaki tablo MarkLLM'de desteklenen dokuz algoritmanın sağlamlığının değerlendirilmesine ilişkin değerlendirme sonuçlarını içermektedir. Her saldırı için, 200 filigranlı metin oluşturuluyor ve daha sonra tahrif ediliyor; ilave 200 filigransız metin ise olumsuz örnekler olarak kullanılıyor. Her koşulda TPR ve F1 puanını optimum performansta raporluyoruz.

Son Düşüncelerimiz

Bu makalede, LLM filigranlama algoritmalarını uygulamak için genişletilebilir ve birleşik bir çerçeve sunarken aynı zamanda kullanım ve erişim kolaylığı sağlamak için kullanıcı dostu arayüzler sunan, filigranlama için açık kaynaklı bir araç seti olan MarkLLM'den bahsettik. Ayrıca MarkLLM çerçevesi, bu çerçevelerin mekanizmalarının otomatik olarak görselleştirilmesini destekleyerek bu modellerin anlaşılırlığını artırır. MarkLLM çerçevesi, performansını değerlendirmek için iki otomatik değerlendirme hattının yanı sıra üç perspektifi kapsayan 12 araçtan oluşan kapsamlı bir paket sunar.

Kunal Kejriwal

"Meslek olarak bir mühendis, ezbere bir yazar". Kunal, yapay zeka ve makine öğrenimine derin bir sevgi ve anlayışa sahip, ilgi çekici ve bilgilendirici belgeleriyle bu alanlardaki karmaşık kavramları basitleştirmeye kendini adamış bir teknik yazardır.