Yapay Zekâ
Zephyr-7B : HuggingFace’in Mistral 7B Üzerine Kurulan Hiper-Optimize Edilmiş LLM’si

Giriş
Açık büyük dil modellerinin (LLM’ler) evrimi, özellikle sohbet botları ve benzeri uygulamalar geliştirirken AI araştırma topluluğunu önemli ölçüde etkiledi. LLaMA gibi modellerin yayınlanmasının ardından, verimli fine-tuning, genişletilmiş.prompt işleme, geri çağırma artırılmış nesil (RAG) ve kuantizasyon konularında bir araştırma patlaması yaşandı.
LLaMA modeli, örneğin, fine-tuning ve.prompt bağlamlaştırması konusunda yeni bir dönem başlattı, MosaicML’nin MPT, Together AI’nin RedPajama-INCITE, TII’nin Falcon ve Meta’nın Llama 2 gibi sonraki modeller için yolu açtı. Her bir model, genel işlevselliği ve LLM’lerin kapsamını tăngtıran benzersiz yetenekler kazandırıyor.
Mistral AI, Paris’ten bir startup ve eski Google DeepMind ve Meta çalışanları tarafından kuruldu, ilk teklifiyle kendini kanıtladı: Mistral 7B.
Mistral 7B’nin avantajı, benzer veya geliştirilmiş yetenekler sunarken, Llama 2 gibi akranlarına kıyasla daha az hesaplama talebiyle geliyor.
Özellikle talimat görevleri için ayarlanan Mistral 7B Instruct, Hugging Face gibi platformlarda aynı boyuttaki diğer modelleri geçerek, neredeyse iki katı parametreye sahip modellerle yakın bir şekilde rekabet ediyor.
Buna dayanarak, Hugging Face Zephyr 7B Alpha‘yi tanıttı, fine-tune edilmiş bir Mistral 7B’nin gerçekten daha büyük sohbet modellerinin yeteneklerini geçebileceğini ve bazı görevlerde sogar GPT-4 ile rekabet edebileceğini gösterdi. “Alpha” sadece başlangıçtı, çünkü Zephyr 7B Beta kısa süre sonra takip etti.
Bu makale, Zephyr 7B’nin, insan talimatıyla yanıt verme ve uyumlu olma yeteneğini, bilgi damıtma tekniğiyle nasıl geliştirdiğini keşfedecek. Bu yöntem, daha küçük modelleri daha büyük olanların öğrendiği karmaşık kalıplarla eğitmeyi içerir, böylece eğitim talepleri azaltılır ancak dil modelleme yetenekleri feda edilmez. Hugging Face’in bilgi damıtma yaklaşımının ayrıntılarına gireceğiz.
Bilgi Damıtma
Zephyr-7B gibi modellerin geliştirilmesindeki önemli bir yenilik, damıtılmış gözetimli fine-tuning (dSFT) yöntemidir. Bu yöntem, daha büyük, daha yetenekli bir “öğretmen” modelin çıktısını kullanarak daha küçük bir “öğrenci” modeli eğitmeyi içerir, böylece doğruluğunu artırır. Damıtma, çeşitli görevlerde açık modelleri geliştirir, ancak öğretmen modellerine kıyasla bir performans açığı vẫn tồnar.
Bilgi damıtma, bir makine öğrenimi yöntemidir, burada kompakt bir model, “öğrenci” olarak adlandırılır, daha büyük, daha karmaşık bir “öğretmen” modelinin performansını taklit etmeyi öğrenir. Bu teknik, öğrencinin daha önce kapasitesinin ötesinde olan görevleri gerçekleştirmesini sağlar, öğretmen tarafından öğrenilen karmaşık kalıpları aktararak.











