Connect with us

Zephyr-7B : HuggingFace’in Mistral 7B Üzerine Kurulan Hiper-Optimize Edilmiş LLM’si

Yapay Zekâ

Zephyr-7B : HuggingFace’in Mistral 7B Üzerine Kurulan Hiper-Optimize Edilmiş LLM’si

mm
Zypher 7B

Giriş

Açık büyük dil modellerinin (LLM’ler) evrimi, özellikle sohbet botları ve benzeri uygulamalar geliştirirken AI araştırma topluluğunu önemli ölçüde etkiledi. LLaMA gibi modellerin yayınlanmasının ardından, verimli fine-tuning, genişletilmiş.prompt işleme, geri çağırma artırılmış nesil (RAG) ve kuantizasyon konularında bir araştırma patlaması yaşandı.
LLaMA modeli, örneğin, fine-tuning ve.prompt bağlamlaştırması konusunda yeni bir dönem başlattı, MosaicML’nin MPT, Together AI’nin RedPajama-INCITE, TII’nin Falcon ve Meta’nın Llama 2 gibi sonraki modeller için yolu açtı. Her bir model, genel işlevselliği ve LLM’lerin kapsamını tăngtıran benzersiz yetenekler kazandırıyor.
Mistral AI, Paris’ten bir startup ve eski Google DeepMind ve Meta çalışanları tarafından kuruldu, ilk teklifiyle kendini kanıtladı: Mistral 7B.
Mistral 7B’nin avantajı, benzer veya geliştirilmiş yetenekler sunarken, Llama 2 gibi akranlarına kıyasla daha az hesaplama talebiyle geliyor.
Özellikle talimat görevleri için ayarlanan Mistral 7B Instruct, Hugging Face gibi platformlarda aynı boyuttaki diğer modelleri geçerek, neredeyse iki katı parametreye sahip modellerle yakın bir şekilde rekabet ediyor.
Buna dayanarak, Hugging Face Zephyr 7B Alpha‘yi tanıttı, fine-tune edilmiş bir Mistral 7B’nin gerçekten daha büyük sohbet modellerinin yeteneklerini geçebileceğini ve bazı görevlerde sogar GPT-4 ile rekabet edebileceğini gösterdi. “Alpha” sadece başlangıçtı, çünkü Zephyr 7B Beta kısa süre sonra takip etti.
Bu makale, Zephyr 7B’nin, insan talimatıyla yanıt verme ve uyumlu olma yeteneğini, bilgi damıtma tekniğiyle nasıl geliştirdiğini keşfedecek. Bu yöntem, daha küçük modelleri daha büyük olanların öğrendiği karmaşık kalıplarla eğitmeyi içerir, böylece eğitim talepleri azaltılır ancak dil modelleme yetenekleri feda edilmez. Hugging Face’in bilgi damıtma yaklaşımının ayrıntılarına gireceğiz.

Bilgi Damıtma

Zephyr-7B gibi modellerin geliştirilmesindeki önemli bir yenilik, damıtılmış gözetimli fine-tuning (dSFT) yöntemidir. Bu yöntem, daha büyük, daha yetenekli bir “öğretmen” modelin çıktısını kullanarak daha küçük bir “öğrenci” modeli eğitmeyi içerir, böylece doğruluğunu artırır. Damıtma, çeşitli görevlerde açık modelleri geliştirir, ancak öğretmen modellerine kıyasla bir performans açığı vẫn tồnar.
Bilgi damıtma, bir makine öğrenimi yöntemidir, burada kompakt bir model, “öğrenci” olarak adlandırılır, daha büyük, daha karmaşık bir “öğretmen” modelinin performansını taklit etmeyi öğrenir. Bu teknik, öğrencinin daha önce kapasitesinin ötesinde olan görevleri gerçekleştirmesini sağlar, öğretmen tarafından öğrenilen karmaşık kalıpları aktararak.

Bilgi Damıtma, | Öğretmen-Öğrenci Modeli

Bilgi Damıtma | Öğretmen-Öğrenci Modeli


Son beş yıldır Makine Öğrenimi ve Derin Öğrenme dünyasına kendimi daldırmış bulunuyorum. Tutkum ve uzmanlığım, özellikle AI/ML odaklı 50'den fazla çeşitli yazılım mühendisliği projesine katkıda bulunmama yol açtı. Süregelen meraklılığım ayrıca beni Doğal Dil İşleme'ye doğru çekti, bu alanda daha fazla keşfetmeye hevesliyim.