Yapay Zeka

Büyük Dil Modellerini Değerlendirme: Teknik Kılavuz

Yayınlanan

3 ay önce

Ocak 29, 2024

GPT-4, Claude ve LLaMA gibi büyük dil modellerinin (LLM'ler) popülaritesi hızla arttı. Etkileyici derecede insan benzeri metinler üretme yetenekleri sayesinde, bu yapay zeka sistemleri artık içerik oluşturmadan müşteri hizmetleri sohbet robotlarına kadar her şey için kullanılıyor.

Peki bu modellerin gerçekten iyi olup olmadığını nasıl bileceğiz? Sürekli olarak duyurulan ve hepsinin daha büyük ve daha iyi olduğunu iddia eden yeni LLM'ler varken, performanslarını nasıl değerlendirip karşılaştıracağız?

Bu kapsamlı kılavuzda büyük dil modellerini değerlendirmeye yönelik en iyi teknikleri inceleyeceğiz. Her yaklaşımın avantaj ve dezavantajlarına, bunların en iyi uygulandığı zamana ve kendi LLM testinizde bunlardan nasıl yararlanabileceğinize bakacağız.

Göreve Özel Metrikler

Bir LLM'yi değerlendirmenin en basit yollarından biri, onu standartlaştırılmış ölçümler kullanarak yerleşik NLP görevleri üzerinde test etmektir. Örneğin:

Özetleme

Özetleme görevleri için aşağıdaki gibi ölçümler ROUGE (Gisting Değerlendirmesi için Hatırlamaya Yönelik Yedek Çalışma) yaygın olarak kullanılmaktadır. ROUGE, kelimelerin veya ifadelerin çakışmasını sayarak, model tarafından oluşturulan özeti insan tarafından yazılmış bir "referans" özetiyle karşılaştırır.

Her birinin kendi artıları ve eksileri olan çeşitli ROUGE çeşitleri vardır:

ROUGE-N: N gramların (N kelime dizileri) örtüşmesini karşılaştırır. ROUGE-1 unigramlar (tek kelimeler) kullanır, ROUGE-2 bigram vb. kullanır. Avantajı, kelime sırasını yakalamasıdır, ancak çok katı olabilir.
ROUGE-L: En uzun ortak alt diziye (LCS) dayanmaktadır. Kelime sırası konusunda daha esnektir ancak ana noktalara odaklanır.
ROUGE-W: Ağırlıklar LCS, önemlerine göre eşleşir. ROUGE-L'yi iyileştirme girişimleri.

Genel olarak ROUGE ölçümleri hızlıdır, otomatiktir ve sistem özetlerini sıralamak için iyi çalışır. Ancak tutarlılığı veya anlamı ölçmezler. Bir özet yüksek bir ROUGE puanı alabilir ve yine de saçma olabilir.

ROUGE-N'nin formülü şöyledir:

$ROUGE-N = Σ ^{s \in {Referans Özetleri}} Σ ^{g r a m n \in s} C o u n t ( g r a m ^{n} ) Σ ^{s \in {Referans Özetleri}} Σ ^{g r a m n \in s} C o u n t ^{ma t c h} ( g r a m ^{n} )$

Nerede:

Count_{match}(gram_n) hem oluşturulan hem de referans özetindeki n-gram sayısıdır.
Count(gram_n) referans özetindeki n-gram sayısıdır.

Örneğin, ROUGE-1 (unigram) için:

Oluşturulan özet: “Kedi oturdu.”
Referans özeti: "Kedi minderin üzerine oturdu."
Örtüşen unigramlar: “The”, “cat”, “sat”
ROUGE-1 puanı = 3/5 = 0.6

ROUGE-L en uzun ortak alt diziyi (LCS) kullanır. Kelime sırası daha esnektir. Formül:

$ROUGE-L = max(uzunluk(oluşturulan), uzunluk(referans)) L CS ( oluşturulan , referans )$

Nerede LCS en uzun ortak alt dizinin uzunluğudur.

ROUGE-W LCS eşleşmelerini ağırlıklandırır. LCS'deki her maçın önemini dikkate alır.

Çeviri

Makine çevirisi görevleri için, MAVİ (İki Dilli Değerlendirme Yetkisi) popüler bir ölçümdür. BLEU, n-gram hassasiyeti ve kısalık cezası kullanarak modelin çıktı çevirisi ile profesyonel insan çevirileri arasındaki benzerliği ölçer.

BLEU'nun çalışma şeklinin temel yönleri:

N'den 4'e kadar olan n-gramların örtüşmelerini karşılaştırır (unigram, bigram, trigram, 4-gram).
N-gram hassasiyetlerinin geometrik ortalamasını hesaplar.
Çevirinin referanstan çok daha kısa olması durumunda kısalık cezası uygulanır.
Genellikle 0 ila 1 arasında değişir; 1, referansla mükemmel eşleşmedir.

BLEU, çeviri kalitesine ilişkin insan yargılarıyla oldukça iyi bir korelasyona sahiptir. Ancak yine de sınırlamaları var:

Yalnızca referanslara göre hassasiyeti ölçer, geri çağırma veya F1'i değil.
Farklı ifadeler kullanan yaratıcı çevirilerle mücadele eder.
Çeviri hileleriyle “oyun oynamaya” yatkındır.

METEOR ve TER gibi diğer çeviri ölçümleri BLEU'nun zayıf yönlerini iyileştirmeye çalışıyor. Ancak genel olarak otomatik ölçümler çeviri kalitesini tam olarak yansıtmaz.

Diğer görevler

Özetleme ve çeviriye ek olarak F1, doğruluk, MSE ve daha fazlası gibi ölçümler, aşağıdaki gibi görevlerde LLM performansını değerlendirmek için kullanılabilir:

Metin sınıflandırması
Bilgi çıkarma
Soru cevaplama
Duygu analizi
Dilbilgisi hatası tespiti

Göreve özgü ölçümlerin avantajı, değerlendirmenin aşağıdaki gibi standartlaştırılmış veri kümeleri kullanılarak tamamen otomatikleştirilebilmesidir: Tayfa Kalite Güvencesi ve YAPIŞTIRICI Bir dizi görev için kıyaslama. Modeller geliştikçe sonuçlar zaman içinde kolayca takip edilebilir.

Ancak bu ölçümler dar bir alana odaklanmıştır ve genel dil kalitesini ölçemez. Tek bir görev için metriklerde iyi performans gösteren Yüksek Lisans'lar genel olarak tutarlı, mantıklı ve yararlı metinler oluşturmada başarısız olabilir.

Araştırma Karşılaştırmaları

Yüksek Lisans derecelerini değerlendirmenin popüler bir yolu, onları çeşitli konuları ve becerileri kapsayan geniş kapsamlı araştırma kriterlerine göre test etmektir. Bu kıyaslamalar, modellerin geniş ölçekte hızlı bir şekilde test edilmesine olanak tanır.

İyi bilinen bazı kriterler şunları içerir:

Süper yapıştırıcı – 11 farklı dil görevinden oluşan zorlu set.
YAPIŞTIRICI – 9 cümle anlama görevinin toplanması. SuperGLUE'dan daha basittir.
MMLU – 57 farklı STEM, sosyal bilimler ve beşeri bilimler görevi. Bilgiyi ve muhakeme yeteneğini test eder.
Winograd Şeması Mücadelesi – Sağduyulu muhakeme gerektiren zamir çözümleme sorunları.
ARC – Zorlu doğal dil muhakeme görevleri.
Hellaswag – Durumlar hakkında sağduyulu akıl yürütme.
PİKA – Diyagram gerektiren fizik soruları.

Araştırmacılar bunun gibi kıyaslamaları değerlendirerek modelleri matematik, mantık, muhakeme, kodlama, sağduyu ve çok daha fazlasını gerçekleştirme becerileri açısından hızlı bir şekilde test edebilirler. Doğru yanıtlanan soruların yüzdesi, modelleri karşılaştırmak için bir ölçüt haline gelir.

Ancak kıyaslamalarla ilgili önemli bir sorun eğitim verilerinin kirlenmesi. Çoğu kıyaslama, modellerin eğitim öncesi sırasında zaten görmüş olduğu örnekleri içerir. Bu, modellerin şunları yapmasını sağlar:ezberlemek” belirli sorulara yanıt verir ve gerçek yeteneklerinden daha iyi performans gösterir.

için girişimlerde bulunuluyor”Arındırmaörtüşen örnekleri kaldırarak karşılaştırmalar yapın. Ancak bunu kapsamlı bir şekilde yapmak zordur, özellikle de modellerin soruların başka sözcüklerle ifade edilmiş veya çevrilmiş versiyonlarını gördüğü durumlarda.

Dolayısıyla, karşılaştırmalı değerlendirmeler geniş bir dizi beceriyi verimli bir şekilde test edebilirken, gerçek muhakeme yeteneklerini güvenilir bir şekilde ölçemez veya kirlenme nedeniyle puan enflasyonunu önleyemez. Tamamlayıcı değerlendirme yöntemlerine ihtiyaç vardır.

Yüksek Lisans Öz Değerlendirmesi

İlgi çekici bir yaklaşım, bir Yüksek Lisans'ın başka bir Yüksek Lisans'ın çıktılarını değerlendirmesini sağlamaktır. Buradaki fikir "daha kolay" görev konseptinden yararlanmaktır:

Yüksek kaliteli bir çıktı üretmek bir Yüksek Lisans için zor olabilir.
Ancak belirli bir çıktının yüksek kalitede olup olmadığını belirlemek daha kolay bir iş olabilir.

Örneğin, bir Yüksek Lisans sıfırdan gerçeklere dayalı, tutarlı bir paragraf oluşturmakta zorlanırken, belirli bir paragrafın mantıksal anlam taşıdığına ve bağlama uyup uymadığına daha kolay karar verebilir.

Yani süreç:

Çıkış oluşturmak için giriş istemini ilk LLM'ye iletin.
Giriş istemini + oluşturulan çıktıyı ikinci "değerlendirici" LLM'ye iletin.
Değerlendirici LLM'ye çıktı kalitesini değerlendirmek için bir soru sorun. örneğin "Yukarıdaki yanıt mantıklı mı?"

Bu yaklaşımın uygulanması hızlıdır ve LLM değerlendirmesini otomatikleştirir. Ancak bazı zorluklar var:

Performans büyük ölçüde değerlendiricinin LLM seçimine ve hızlı ifadelere bağlıdır.
Orijinal görevin zorluğu nedeniyle kısıtlanmıştır. Karmaşık akıl yürütmeyi değerlendirmek Yüksek Lisans'lar için hala zordur.
API tabanlı LLM'ler kullanılıyorsa hesaplama açısından pahalı olabilir.

Öz değerlendirme özellikle elde edilen bilgilerin değerlendirilmesi açısından umut vericidir. RAG (geri almayla artırılmış nesil) sistemler. Ek LLM sorguları, alınan bağlamın uygun şekilde kullanılıp kullanılmadığını doğrulayabilir.

Genel olarak, öz değerlendirme potansiyel gösterir ancak uygulamada dikkat gerektirir. İnsan değerlendirmesinin yerine geçmek yerine onu tamamlar.

İnsan Değerlendirmesi

Otomatik ölçümlerin ve kıyaslamaların sınırlamaları göz önüne alındığında, insan değerlendirmesi, LLM kalitesinin titizlikle değerlendirilmesi için hala altın standarttır.

Uzmanlar aşağıdaki konularda ayrıntılı niteliksel değerlendirmeler sağlayabilir:

Doğruluk ve gerçek doğruluk
Mantık, muhakeme ve sağduyu
Tutarlılık, tutarlılık ve okunabilirlik
Ton, üslup ve sesin uygunluğu
Dilbilgisi ve akıcılık
Yaratıcılık ve nüans

Bir modeli değerlendirmek için insanlara bir dizi girdi istemi ve LLM tarafından oluşturulan yanıtlar verilir. Genellikle derecelendirme ölçekleri ve değerlendirme listeleri kullanarak yanıtların kalitesini değerlendirirler.

Dezavantajı ise manuel insan değerlendirmesinin pahalı, yavaş ve ölçeklendirilmesinin zor olmasıdır. Aynı zamanda standartlaştırılmış kriterlerin geliştirilmesini ve bunları tutarlı bir şekilde uygulamak için değerlendiricilerin eğitilmesini gerektirir.

Bazı araştırmacılar, insanların modeller arasındaki eşleşmelere bahis oynadığı ve yargıladığı turnuva tarzı sistemleri kullanarak, insan LLM değerlendirmelerini kitlesel fonlamanın yaratıcı yollarını araştırdılar. Ancak kapsam, tam manuel değerlendirmelerle karşılaştırıldığında hala sınırlıdır.

Kalitenin ham ölçekten daha önemli olduğu iş kullanım durumları için, maliyetlerine rağmen uzman insan testleri altın standart olmayı sürdürüyor. Bu özellikle Yüksek Lisans'ın riskli uygulamaları için geçerlidir.

Sonuç

Büyük dil modellerini kapsamlı bir şekilde değerlendirmek, herhangi bir tekniğe dayanmak yerine, çeşitli tamamlayıcı yöntemlerden oluşan bir araç setinin kullanılmasını gerektirir.

Hız için otomatikleştirilmiş yaklaşımları, doğruluk için titiz insan gözetimiyle birleştirerek, büyük dil modelleri için güvenilir test metodolojileri geliştirebiliriz. Sağlam bir değerlendirmeyle, risklerini sorumlu bir şekilde yönetirken Yüksek Lisans'ların muazzam potansiyelini açığa çıkarabiliriz.

İlgili konular:AI GPT lama metrikleri

Bir sonraki

Yanlış Bilgi Çağında Yön Bulma: Veri Merkezli Üretken Yapay Zeka Durumu

Kaçırmayın

Büyük Dil Modelleri İçin Sunucusuz Çıkarımın Geleceği

Aayush Mittal

Son beş yılımı, Makine Öğrenimi ve Derin Öğrenmenin büyüleyici dünyasına dalarak geçirdim. Tutkum ve uzmanlığım, özellikle AI/ML'ye odaklanarak 50'den fazla farklı yazılım mühendisliği projesine katkıda bulunmamı sağladı. Devam eden merakım, beni daha fazla keşfetmeye hevesli olduğum bir alan olan Doğal Dil İşleme'ye de çekti.

Unite.AI

Büyük Dil Modellerini Değerlendirme: Teknik Kılavuz

Yapay Zeka

Büyük Dil Modellerini Değerlendirme: Teknik Kılavuz

Içindekiler