Yapay Zekâ

Sapient Intelligence, HRM-Text’i Tanıttı: Beyin İlhamlı Bir AI Modeli

mm

AI endüstrisi, her geçen gün daha büyük dil modellerine ve devasa veri merkezlerine milyarlarca dolar yatırırken, Singapur merkezli AI araştırma şirketi Sapient Intelligence farklı bir yaklaşım benimsemekte.

Şirket, 1 milyar parametrelik bir akıl yürütme dili modeli olan HRM-Text’i tanıttı. Bu model, beynin yavaş ve bilinçli akıl yürütme ile hızlı ve düşük seviyeli işleme arasındaki ayrımından esinlenen bir hiyerarşik yinelemeli mimariye dayanmaktadır.

Şirket, HRM-Text’i, akıl yürütme derinliği ve hesaplamalı verimliliğin ham parametre sayılarından daha önemli hale gelebileceği AI gelişiminin bir sonraki aşamasında kanıt olarak konumlandırıyor.

Lansman, AI sektöründe ortaya çıkan daha geniş bir eğilimi de sürdürüyor: Transformer’ları sınırsız olarak ölçeklemenin daha genel AI formlarını elde etmeye yetmeyeceğine dair artan kuşku.

Transformer Rehberinden Öteye Geçmek

Çoğu modern büyük dil modeli, next-token tahmini odaklı bir feed-forward sistem aracılığıyla bilgi işleyen Transformer mimarilerine dayanır. Sapient’in HRM çerçevesi ise, herhangi bir çıktı üretimi önce birden fazla akıl yürütme katmanının iç içe geçtiği bir hiyerarşik yinelemeli yapı sunar.

Şirket, bu mimariyi, soyut planlama ve akıl yürütme için üst düzey bir “yavaş kontrolör” ve ayrıntılı hesaplamalar için bir “hızlı işçi”den oluşan iki birbirine bağlı sistem olarak tanımlamaktadır.

Bu, yaygın olarak kullanılan zincir-düşünme yöntemlerinden farklıdır; burada akıl yürütme, uzun görünen metin dizileri aracılığıyla ifade edilir. HRM-Text ise, cevaplar üretmeden önce çoğu akıl yürütmesini iç latens alanda gerçekleştirir.

Sapient, bu yapının daha küçük sistemlerin, devasa model boyutlarına veya büyük çıkarım maliyetlerine gerek kalmadan daha karmaşık çok adımlı akıl yürütme gerçekleştirmesine olanak tanıdığını savunuyor.

Şirket tarafından sağlanan benchmark sonuçlarına göre, HRM-Text, MATH’de %56,2, ARC-Challenge’da %81,9, DROP’da %82,2 ve MMLU’da %60,7 puan elde etti; bu, nispeten küçük ayak izine rağmen kayda değer bir başarıdır.

Verimlilik Stratejik AI Savaş Alanı Oluyor

Lansman, AI altyapısı maliyetleri, enerji tüketimi ve hesaplama erişilebilirliği konusunda artan endişelerin AI endüstrisinin merkezi konuları haline geldiği bir zamanda gerçekleşiyor.

Devlet-santral AI sistemlerinin eğitimi ve dağıtımı artık thường büyük GPU kümeleri, hiperscale veri merkezleri ve enerji tüketimi seviyeleri gerektirmektedir; bu da hükümetler ve altyapı sağlayıcıları tarafından giderek daha fazla incelenmektedir. Sapient, gelecekteki atılımların, daha büyük sistemleri ölçeklemek yerine mimariyi temel olarak yeniden düşünmekten gelebileceğini savunuyor.

Şirket, HRM-Text’in yaklaşık 1 gün içinde 16 GPU ve iki makine kullanarak yaklaşık 1.000 dolarlık bir maliyetle eğitilebileceğini iddia ediyor. Karşılaştırıldığında, ön cephe dil modellerinin eğitimi için yüz milyonlarca dolarlık bütçeler gerekebiliyor.

Modelin kompakt dağıtım profili de dikkat çekicidir. int4 kuantizasyonunda, HRM-Text yaklaşık 0,6 GiB yer kaplar; bu da yerel olarak dağıtımını ve akıllı telefonlar ve kenar cihazlar上的 çalışmasını teorik olarak mümkün kılar.

Bu odak, şirketlerin cihazda AI, gizlilik duyarlı çıkarım ve bulut altyapısına tamamen bağımlı olmayan offline akıl yürütme sistemlerine doğru ilerlemesiyle birlikte giderek daha önemli hale gelebilir.

Beyin İlhamlı AI’ye Doğru Geniş Bir İlerleme

Sapient’in çalışması, geleneksel transformer ölçeklemesine alternatifler araştıran daha geniş bir AI araştırma hareketinin parçasıdır.

Şirketin HRM mimarisi, hiyerarşik işleme, zaman ayrımı ve yinelemeli hesaplamadan esinlenen nörobilimsel kavramlardan büyük ölçüde yararlanmaktadır.

Web sitesinde Sapient, uzun vadeli hedefini, istatistiksel hafıza yerine akıl yürütme, planlama ve adaptif öğrenme yeteneklerine sahip mimariler aracılığıyla Yapay Genel Zeka’yı takip etmek olarak tanımlamaktadır.

Şirketin araştırma ekibinde, DeepMind, DeepSeek ve xAI gibi organizasyonlardan eski katkıda bulunanlar ve MIT, Carnegie Mellon Üniversitesi, Tsinghua Üniversitesi ve Cambridge Üniversitesi’nden araştırmacılar yer almaktadır.

Sapient’in Hierarchical Reasoning Model’inin önceki sürümleri, geleneksel LLM’lerden dramatically daha küçük parametre sayıları kullanarak güçlü akıl yürütme performansı elde ettiği için AI araştırma çevrelerinde already dikkat çekmişti.

AI İlerlemesinin Ölçülme Biçiminde Değişim

HRM gibi mimarilerin en büyük ön cephe modelleriyle rekabet edebileceği konusunda vẫn bir soru işareti bulunsa da, Sapient’in lansmanı, endüstrinin kaba kuvvet genişlemenin sınırlarıyla yüzleştiği bir anda gerçekleşiyor.

GPU kıtlıkları, güç tıkanıklıkları, çıkarım maliyetleri ve daha büyük veri kümelerinden azalan geri dönüşler, araştırmacıların son birkaç yıldır AI gelişimini şekillendiren varsayımları yeniden değerlendirmelerine neden oluyor.

Eğer HRM-Text gibi sistemler gelişmeye devam ederse, AI’de ilerlemenin ölçülme şeklini değiştirebilirler; dikkati parametre sayılarından verimlilik, akıl yürütme derinliği ve adaptasyona kaydırabilirler.

Şirket, HRM-Text’i lansmanın bir parçası olarak GitHub aracılığıyla tamamen açık kaynak olarak yayınladı.

Antoine bir vizyoner lider ve Unite.AI'in kurucu ortağıdır ve AI ve robotik geleceğini şekillendirmek ve tanıtmak için sarsılmaz bir tutkuyla hareket etmektedir. Bir seri girişimci olarak, toplum için elektrik kadar yıkıcı olacağına inandığı AI'nin potansiyeli hakkında sık sık konuşur ve coşkusunu dile getirir.
Bir futurist olarak, bu yeniliklerin dünyamızı nasıl şekillendireceğini keşfetmeye adanmıştır. Ayrıca, Securities.io kurucusudur, bu platform geleceği yeniden tanımlayan ve tüm sektörleri yeniden şekillendiren teknolojilere yatırım yapmaya odaklanmıştır.