Connect with us

Microsoft’un Phi-3 Mini’si İçinde: Ağırbaşlı Bir AI Modeli

Yapay Zekâ

Microsoft’un Phi-3 Mini’si İçinde: Ağırbaşlı Bir AI Modeli

mm
Phi-3 : A Highly Capable Language Model Locally on Your Phone

Microsoft yakın zamanda Phi-3 Mini adlı son hafif dil modelini tanıttı ve bu, sınırlı hesaplama kaynaklarına sahip cihazlarda verimli bir şekilde çalışmak üzere tasarlanmış bir dizi kompakt AI modelinin başlangıcını yaptı. Sadece 3.8 milyar parametre ile Phi-3 Mini, GPT-4 gibi AI devlerinin bir kesri büyüklüğünde olmasına rağmen, birçok önemli alanda onların yeteneklerini eşleştireceğine söz veriyor.

Phi-3 Mini‘nin geliştirilmesi, gelişmiş AI yeteneklerini daha geniş bir donanım yelpazesi üzerinde erişilebilir kılmak için önemli bir kilometre taşı temsil ediyor. Küçük ayak izi, akıllı telefonlar, tabletler ve diğer kenar cihazlarda yerel olarak dağıtılabilecek şekilde tasarlandı, böylece bulut tabanlı modellerle ilgili gecikme ve gizlilik endişeleri bertaraf edildi. Bu, sanal asistanlar ve konuşma AI’den kod asistanlarına ve dil anlama görevlerine kadar çeşitli alanlarda akıllı cihaz içi deneyimler için yeni olanaklar sunuyor.

4-bit quantized phi-3-mini running natively on an iPhone
4-bit quantized phi-3-mini running natively on an iPhone

Motor Kapağı Altında: Mimarisi ve Eğitimi

Temelde, Phi-3 Mini, open-source Llama-2 modeli gibi benzer bir mimariye dayanan bir transformer decoder modelidir. 32 katman, 3072 gizli boyut ve 32 dikkat başlığı ile birlikte, varsayılan bağlam uzunluğu 4.000 token’dir. Microsoft ayrıca, LongRope gibi teknikleri kullanarak bağlam uzunluğunu 128.000 token’e çıkaran Phi-3 Mini-128K adlı bir uzun bağlam sürümü de tanıttı.

Ancak Phi-3 Mini’yi ayıran şey, eğitim metodolojisidir. Kaba kuvvet kullanarak devasa veri kümeleri ve hesaplama gücüne güvenmek yerine, Microsoft yüksek kaliteli, akıl yoğun bir eğitim veri kümesi oluşturmaya odaklandı. Bu veri, ağır şekilde süzülmüş web verileri ile daha büyük dil modelleri tarafından üretilen sentetik verilerden oluşuyor.

Eğitim süreci iki aşamalı bir yaklaşımı takip ediyor. İlk aşamada, model genel bilgi ve dil anlama öğretmek amacıyla çeşitli web kaynaklarına maruz kalıyor. İkinci aşama, mantıksal akıl yürütme becerileri ve niş alan uzmanlığı kazandırmak üzere tasarlanmış sentetik verilerle birlikte daha da ağır süzülmüş web verilerini birleştiriyor.

Microsoft bu yaklaşımı “veri optimal rejimi” olarak adlandırıyor, bu da birçok büyük dil modelinin kullandığı geleneksel “hesaplama optimal rejimi” veya “aşırı eğitim rejimi”nden bir ayrılık teşkil ediyor. Hedef, eğitim verilerini modelin ölçeğine uyumlu hale getirmek, böylece doğru düzeyde bilgi ve akıl yürütme yeteneği sağlarken, diğer yeteneklere yeterli kapasite bırakıyor.

Quality of new Phi-3 models, as measured by performance on the Massive Multitask Language Understanding (MMLU) benchmark
Yeni Phi-3 modellerinin kalitesi, Massive Multitask Language Understanding (MMLU) benchmark performansına göre ölçülür

Bu veri odaklı yaklaşım meyvelerini verdi, çünkü Phi-3 Mini, geniş bir akademik benchmark yelpazesi üzerinde dikkat çekici performans gösteriyor ve souvent daha büyük modellerle yarışıyor veya onları geçiyor. Örneğin, çoklu görev öğrenme ve anlama için MMLU benchmark’unda %69 puan alıyor ve matematiksel akıl yürütme için MT-bench’de 8.38 puan alıyor – bu sonuçlar Mixtral 8x7B ve GPT-3.5 gibi modellerle aynı seviyede.

Güvenlik ve Dayanıklılık

İnanılmaz performansının yanı sıra, Microsoft Phi-3 Mini’nin geliştirilmesinde güvenlik ve dayanıklılığa güçlü bir vurgu yaptı. Model, denetimli fine-tuning (SFT) ve doğrudan tercih optimizasyonu (DPO) içeren bir dizi post-eğitim sürecinden geçti.

SFT aşaması, matematik, kodlama, akıl yürütme, sohbet, model kimliği ve güvenlik dahil çeşitli alanlarda yüksek düzeyde süzülmüş veriler kullanıyor. Bu, modelin bu alanlardaki yeteneklerini pekiştirirken, aynı zamanda güçlü bir kimlik ve etik davranış duygusu kazandırıyor.

DPO aşaması ise, istenmeyen davranışlardan kaçınmak için reddedilen yanıtları negatif örnekler olarak kullanmaya odaklanıyor. Bu işlem, sohbet formatlı veri, akıl yürütme görevleri ve sorumlu AI (RAI) çabalarını kapsıyor, böylece Phi-3 Mini’nin Microsoft’un etik ve güvenilir AI ilkelerine uymasını sağlıyor.

Güvenlik profilini daha da güçlendirmek için, Phi-3 Mini, dozens of RAI zarar kategorileri boyunca kapsamlı red teaming ve otomatik testlere tabi tutuldu. Microsoft’taki bağımsız bir red team, modeli iteratif olarak inceledi, geliştirme alanları belirledi ve bu alanlar, ek süzülmüş veri kümeleri ve yeniden eğitim yoluyla ele alındı.

Bu çok yönlü yaklaşım, zararlı yanıtlar, gerçek yanlışlıklar ve önyargıların oluşma oranını önemli ölçüde azalttı, Microsoft’un iç RAI benchmark’lerinde gösterildiği gibi. Örneğin, model, zararlı içerik devamı için düşük hata oranları (%0,75) ve özetleme (%10) sergiliyor ve ayrıca verilen bağlamda kökten uzaklaşmanın düşük bir oranını gösteriyor (%0,603), bu da yanıtlarının sağlam bir şekilde bağlamda köklenmesini gösteriyor.

Uygulamalar ve Kullanım Durumları

İnanılmaz performans ve dayanıklı güvenlik önlemleri ile Phi-3 Mini, özellikle kaynak kısıtlı ortamlarda ve gecikme sınırlı senaryolarda geniş bir uygulama yelpazesine uygun.

En heyecan verici olasılıklardan biri, akıllı sanal asistanlar ve konuşma AI’nin doğrudan mobil cihazlara dağıtılması. Yerel olarak çalıştırıldıklarında, bu asistanlar ağ bağlantısı olmadan anında yanıtlar sağlayabilir ve aynı zamanda duyarlı verilerin cihazda kalmasını sağlayarak gizlilik endişelerini giderir.

Phi-3 Mini’nin güçlü akıl yürütme yetenekleri, kodlama yardımı ve matematiksel problem çözme için de değerli bir varlık haline getiriyor. Geliştiriciler ve öğrenciler, cihaz上的 kod tamamlama, hata algılama ve açıklamalardan yararlanabilir, böylece geliştirme ve öğrenme süreçlerini hızlandırabilir.

Bu uygulamaların ötesinde, modelin esnekliği, dil anlama, metin özetleme ve soru cevaplama gibi alanlarda fırsatlar sunuyor. Küçük boyutu ve verimliliği, AI yeteneklerini çeşitli cihazlara ve sistemlere entegre etmek için çekici bir seçim haline getiriyor, akıllı ev aletlerinden endüstriyel otomasyona kadar.

İleriye Bakış: Phi-3 Küçük ve Phi-3 Orta

Phi-3 Mini, kendi başına önemli bir başarı olsa da, Microsoft’un Phi-3 ailesi için daha büyük planları var. Şirket, zaten iki daha büyük modeli, Phi-3 Küçük (7 milyar parametre) ve Phi-3 Orta (14 milyar parametre) önizledi, bu modellerin de kompakt dil modelleri için performans sınırlarını zorlayacağı öngörülüyor.

Phi-3 Küçük, Örneğin, daha gelişmiş bir tokenleştirici (tiktoken) ve gruplu sorgu dikkat mekanizması ile birlikte, bellek ayak izini optimize etmek için yeni bir blocksparse dikkat katmanı kullanıyor ve aynı zamanda uzun bağlam geri çağırma performansını koruyor. Ayrıca, dil anlama ve jenerasyon yeteneklerini birden fazla dilde güçlendirmek için %10 daha fazla çok dilli veri içeriyor.

Phi-3 Orta, ise önemli bir ölçek artışı temsil ediyor, 40 katman, 40 dikkat başlığı ve 5.120 gömme boyutuna sahip. Microsoft, bazı benchmark’lerin bu artan kapasiteden tam olarak yararlanmak için eğitim veri karışımının daha da rafine edilmesini gerektirebileceğini not ediyor, ancak ilk sonuçlar umut verici, MMLU, TriviaQA ve HumanEval görevlerinde Phi-3 Küçük üzerinde önemli gelişmeler gösteriyor.

Sınırlamalar ve Gelecek Yönleri

İnanılmaz yeteneklerine rağmen, Phi-3 Mini, tüm dil modelleri gibi, sınırlamalardan muaf değil. En dikkat çekici zayıflıklardan biri, nispeten sınırlı gerçek bilgi depolama kapasitesidir, bu da TriviaQA gibi benchmark’lerde daha düşük performans ile sonuçlanıyor.

Ancak Microsoft, bu sınırlamanın, modeli arama motoru yetenekleri ile tamamlayarak bertaraf edilebileceğine inanıyor, böylece model ilgili bilgileri gerektiğinde alabiliyor ve akıl yürütebiliyor. Bu yaklaşım, Hugging Face Chat-UI‘de gösteriliyor, burada Phi-3 Mini, yanıtlarını güçlendirmek için aramayı kullanabiliyor.

Diğer bir geliştirme alanı, modelin çok dilli yetenekleri. Phi-3 Küçük, ilk adımları atarak daha fazla çok dilli veri entegre etti, ancak bu kompakt modellerin tam potansiyelini açığa çıkarmak için daha fazla çalışma gerekiyor.

Microsoft, Phi ailesini sürekli olarak geliştirmeye, sınırlamalarını ele almaya ve yeteneklerini genişletmeye kararlı. Bu, eğitim verisi ve metodolojisinin daha da rafine edilmesi, yeni mimarilerin ve özellikle kompakt, yüksek performanslı dil modelleri için tasarlanmış tekniklerin keşfedilmesini içerebilir.

Sonuç

Microsoft’un Phi-3 Mini’si, gelişmiş AI yeteneklerinin demokratikleşmesinde önemli bir sıçrama temsil ediyor. Devlet-of-the-art performansı, kompakt ve kaynak verimli bir pakette sunarak, çeşitli uygulamalar için akıllı cihaz içi deneyimler için yeni olanaklar sunuyor.

Modelin yenilikçi eğitim yaklaşımı, akıl yoğun veri üzerinde durarak, büyük dil modellerinin kullandığı kaba güce dayalı yaklaşımın yerine, Phi-3 Mini’nin ağırlığının üzerinde performans göstermesini sağlıyor. Güçlü güvenlik önlemleri ve devam eden geliştirme çabalarıyla birlikte, Phi-3 model ailesi, akıllı sistemlerin geleceğini şekillendirmede önemli bir rol oynamaya hazır, AI’yi daha erişilebilir, verimli ve güvenilir hale getiriyor.

Teknoloji endüstrisi AI’nin sınırlarını devam ettirirken, Microsoft’un hafif, yüksek performanslı modellere odaklanması, “büyük olan her şey daha iyi” geleneksel bilgisineRefreshing bir ayrılık teşkil ediyor. Büyüklüğün her şey olmadığını göstererek, Phi-3 Mini, akıllı veri kürasyonu, düşünceli model tasarımı ve sorumlu geliştirme uygulamaları yoluyla AI’nin değerini ve etkisini en üst düzeye çıkarmaya odaklanan bir yenilik dalgasını tetikleme potansiyeline sahip.

Son beş yıldır Makine Öğrenimi ve Derin Öğrenme dünyasına kendimi daldırmış bulunuyorum. Tutkum ve uzmanlığım, özellikle AI/ML odaklı 50'den fazla çeşitli yazılım mühendisliği projesine katkıda bulunmama yol açtı. Süregelen meraklılığım ayrıca beni Doğal Dil İşleme'ye doğru çekti, bu alanda daha fazla keşfetmeye hevesliyim.