Yapay Zekâ

Zephyr-7B: Doğrudan Hizalama Distilasyonu için Bir Giriş

Yayınlandı 29 Kasım 2023

Güncellendi 22 Mayıs 2026

Yazan

Kunal Kejriwal

Küçük, açık büyük dil modellerinin yetenekleri ve performansı son yıllarda önemli ölçüde ilerledi ve GPT-2 modellerinden daha kompakt, doğru ve etkili LLM çerçevelerine kadar olan ilerlemeyi gördük. Bu çerçeveler, Chinchilla ölçekleme yasaları tarafından önerilen “hesap-optimal” token miktarından çok daha büyük bir token miktarını kullanıyorlar. Ayrıca, geliştiriciler, bu küçük LLM çerçevelerinin, bir öğretmen modelinin çıktısını denetimli veri olarak kullanarak doğruluğu artırmaya çalışan bir dSFT veya Distilled Supervised Fine-Tuning yaklaşımı kullanarak daha da eğitilebileceğini gösterdiler.

Bu makalede, Zephyr-7B çerçevesi hakkında konuşacağız. Zephyr-7B, 7B parametreli modeller için bir sohbet benchmarkıdır ve insan annotasyonlarına ihtiyaç duymaz. Çerçevenin primary amacı, geliştiricilerin kullanıcı amacına daha yakın hizalanmış küçük büyük dil modelleri üretmesini sağlamaktır. Zephyr-7B çerçevesi, yalnızca daha büyük LLM çerçeveleri için mevcut yaklaşım olan dSFT’yi incelemekle kalmaz, aynı zamanda kullanıcı amacına daha iyi hizalanmış bir sohbet modeli öğrenmek için diğer yaklaşım olanaklarını da araştırır. Zephyr çerçevesini, mimarisi, çalışması ve sonuçları hakkında daha derinlemesine bir inceleme yapacağız. Başlayalım.

Zephyr-7B: Doğrudan Hizalama Distilasyonu için Bir Giriş

Önce de bahsedildiği gibi, dil modelleri son yıllarda hızlı bir şekilde ilerledi, GPT-2 çerçevelerinden GPT-4 ve MiniGPT-5 LLM çerçevelerine kadar. Bu gelişmiş LLM çerçevelerinin önemli bir özelliği, daha önce hesap-optimal olarak kabul edilen token miktarından çok daha büyük bir token miktarını içermeleridir. Ayrıca, LLM çerçeveleri üzerinde çalışan geliştiriciler ve araştırmacılar, bu küçük LLM çerçevelerinin, bir öğretmen modelinin çıktısını denetimli veri olarak kullanarak doğruluğu artırmaya çalışan bir dSFT veya Distilled Supervised Fine-Tuning yaklaşımı kullanarak daha da eğitilebileceğini gösterdiler.

Amaç hizalaması her zaman bir büyük dil modeli geliştiricileri için büyük bir zorluk olmuştur ve son çalışmalar, AlpacaEval ve MT-Bench gibi benchmarkların geliştirilmesine odaklanmıştır. Zephyr çerçevesinin geliştirilmesinin motivasyonu, küçük bir açık LLM çerçevesini tamamen hizalamak için bir dSFT yaklaşımını kullanma sorununa dayanmaktadır. Zephyr çerçevesi, bir öğretmen modelinin diğer modellerin ürettiği çıktılara tercihlerini kullanarak bir AI geri bildirimi elde etme yaklaşımını takip eder. Bu yaklaşım, UltraFeedback çerçevesinin kullandığı yaklaşımdan esinlenmiştir.

Geliştiriciler, bu yaklaşımı doğrulamak için Zephyr-7B çerçevesini geliştirdiler ve bu çerçeve, bazı yönlerden, state of the art Mistral-7B çerçevesinin hizalanmış bir versiyonudur. Çerçeve, önce UltraChat veri seti üzerinde dSFT veya Distilled Supervised Fine-Tuning kullanır ve ardından AI geri bildirimi verilerini kullanarak dDPO veya Denoising Diffusion Policy Optimization yaklaşımını uygular. Deneyimler, Zephyr-7B çerçevesinin 7 milyar parametreyle, 70 milyar parametreli insan geri bildirimiyle hizalanmış sohbet modelleriyle karşılaştırılabilir sonuçlar ürettiğini gösteriyor.

Aşağıdaki şekil, çeşitli dil modellerinin MT-Bench benchmarkındaki performansını göstermektedir. Zephyr-7B çerçevesi, dDPO yaklaşımını kullanarak eğitilen ve GPT-3.5 Turbo, Llama-2-70B gibi daha büyük dil modelleriyle karşılaştırılmaktadır. Görüldüğü gibi, Zephyr-7B çerçevesi, birçok modeli farklı alanlarda geride bırakarak karşılaştırılabilir sonuçlar üretmektedir.

Zephyr-7B: Yöntem, Çalışma ve Mimarisi

Zephyr-7B çerçevesinin primary amacı, açık bir büyük dil modelinin kullanıcı amacına mümkün olduğunca yakın hizalanmasını sağlamaktır. Çerçeve, bir öğretmen modeline erişim olduğunu varsayar ve InstructGPT çerçevesinin kullandığı yaklaşıma benzer bir yaklaşım takip eder.

Aşağıdaki şekil, Zephyr-7B çerçevesinin çalışmasını gösteren üç ana adımı göstermektedir.

Kendi talimatlı bir stil kullanarak büyük ölçekli veri seti oluşturmak için dSFT.
Bir dizi sohbet modelinin tamamlayıcı bir koleksiyonu kullanarak AI geri bildirimi toplamak ve GPT-4 tarafından puanlama ve ikili tercih oluşturmak.
Geri bildirimi verilerini kullanarak dSFT modelinin dPO’sunu gerçekleştirmek.

dSFT veya Distilled Supervised Fine-Tuning

Çerçeve, bir ham büyük dil modeli ile başlar ve bu modelin kullanıcı talimatlarına yanıt vermesi için eğitilmesi gerekir. Geleneksel olarak, bu büyük dil modellerini kullanıcı talimatlarına yanıt vermesi için eğitmek, yüksek kaliteli talimatlar ve karşılık gelen yanıtlar içeren bir veri seti üzerinde SFT veya Supervised Fine Tuning kullanılarak yapılır.

AI Geri Bildirimi ile Tercihler

İnsan geri bildirimi, büyük dil modellerine ek sinyaller sağlayabilir ve bu geri bildirimler genellikle büyük dil modellerinin ürettiği yanıtların kalitesi hakkında tercihler olarak verilir. Ancak Zephyr çerçevesi, distilasyon amacıyla insan geri bildirimi yerine öğretmen modelinin diğer modellerin ürettiği çıktılara tercihlerini kullanır.

dDPO veya Distilled Direct Preference Optimization

dDPO, Zephyr çerçevesinin son adımıdır ve primary amacı, dSFT öğretmen modelini, bir tercih modelinde tercih edilen yanıtı sıralama olasılığını maksimize ederek iyileştirmektir. Önceki adım, AI geri bildirimi kullanarak bir Reinforcement Learning yaklaşımı olan PPO veya Proximal Policy Optimization kullanmıştır.

Zephyr-7B: Deneyimler, Benchmarklar ve Sonuçlar

Zephyr çerçevesi, state of the art Mistral-7B çerçevesi üzerinde ince ayar deneyleri gerçekleştirmektedir.

Veri Setleri

Zephyr çerçevesi, etkili sohbet modelleri üretmek için previously kanıtlanmış olan iki diyalog veri setini kullanmaktadır.

UltraChat

UltraChat, yaklaşık 1,5 milyon multi-turn diyalog içeren bir self-refinement veri setidir.

UltraFeedback

UltraFeedback, her biri dört büyük dil modeli yanıtına sahip 64.000’den fazla.prompt içeren bir veri setidir.

Değerlendirme

Zephyr çerçevesinin performansını değerlendirmek için, geliştiriciler iki sohbet benchmarkı kullanmışlardır.

MT-Bench

MT-Bench, 160 soru içeren bir benchmarktır.

AlpacaEval

AlpacaEval, 800’den fazla soru içeren bir benchmarktır.

Ayrıca, Zephyr-7B çerçevesi, Open LLM Leaderboard için çoklu sınıf sınıflandırma görevleri, ARC, HellaSwag, MMLU ve daha fazlası için de değerlendirilmektedir.

Sonuçlar

Şimdi, Zephyr-7B çerçevesinin performansına ve diğer dil modelleriyle karşılaştırıldığında nasıl bir performans gösterdiğine bakalım.

dDPO Yaklaşımının Sohbet Yeteneklerini Artırması

Aşağıdaki tablo, Zephyr-7B çerçevesinin AlpacaEval ve MT-Bench benchmarklarındaki performansını diğer dil modelleriyle karşılaştırmaktadır.

Görüldüğü gibi, Zephyr-7B çerçevesi, diğer dil modelleriyle karşılaştırıldığında önemli bir performans göstermektedir.

dDPO Akademik Görev Performansını Artırır

Aşağıdaki şekil, Zephyr-7B çerçevesinin diğer dil modelleriyle karşılaştırıldığında akademik görevlerde nasıl bir performans gösterdiğine ilişkin bir karşılaştırmadır.

Görüldüğü gibi, Zephyr-7B çerçevesi, diğer dil modelleriyle karşılaştırıldığında akademik görevlerde önemli bir performans göstermektedir.

Tercih Optimizasyonu

Aşağıdaki şekil, Zephyr-7B çerçevesinin performansını, dDPO yaklaşımının nasıl bir performans gösterdiğine ilişkin bir karşılaştırmadır.

Son olarak, aşağıdaki şekil, DPO yaklaşımının, Zephyr-7B çerçevesinin performansını nasıl etkilediğine ilişkin bir karşılaştırmadır.

Sonuç

Bu makalede, Zephyr-7B çerçevesi hakkında konuşmuştuk. Zephyr-7B, state of the art Mistral-7B çerçevesine dayanan bir çerçevedir ve küçük, açık büyük dil modellerinin kullanıcı amacına daha yakın hizalanmasını sağlamayı amaçlar. Zephyr-7B çerçevesi, yalnızca daha büyük LLM çerçeveleri için mevcut yaklaşım olan dSFT’yi incelemekle kalmaz, aynı zamanda kullanıcı amacına daha iyi hizalanmış bir sohbet modeli öğrenmek için diğer yaklaşım olanaklarını da araştırır.

Ancak, Zephyr-7B çerçevesi mükemmel değildir ve bazı sınırlılıkları vardır. Örneğin, GPT-4 çerçevesini MT-Bench ve AlpacaEval benchmarklarını değerlendirmek için kullanılması, bu benchmarkların Zephyr-7B çerçevesinin kendi kendine distile ettiği modellere karşı önyargılı olabileceği anlamına gelir. Ancak, Zephyr-7B çerçevesi, küçük, açık modellerin kullanıcı amacına ve etkileşimlerine hizalanma yeteneklerini keşfetmek için bir yol açmayı amaçlar.

Kunal Kejriwal

Mesleği mühendis, kalbi yazar. Kunal, AI ve ML'ye derin bir sevgi ve anlayışla technical writer, bu alanlardaki karmaşık kavramları etkileyici ve bilgilendirici belgelerle basitleştirmeye adanmış.

Unite.AI

Zephyr-7B: Doğrudan Hizalama Distilasyonu için Bir Giriş

Zephyr-7B: Doğrudan Hizalama Distilasyonu için Bir Giriş

Zephyr-7B: Yöntem, Çalışma ve Mimarisi

dSFT veya Distilled Supervised Fine-Tuning

AI Geri Bildirimi ile Tercihler

dDPO veya Distilled Direct Preference Optimization

Zephyr-7B: Deneyimler, Benchmarklar ve Sonuçlar

Veri Setleri

UltraChat

UltraFeedback

Değerlendirme

MT-Bench

AlpacaEval

Sonuçlar

dDPO Yaklaşımının Sohbet Yeteneklerini Artırması

dDPO Akademik Görev Performansını Artırır

Tercih Optimizasyonu

Sonuç

Daha fazlasını keşfedin