Röportajlar
Mohammad Abu Sheikh, CNTXT AI Kurucusu ve CEO'su – Röportaj Dizisi

Muhammed Ebu Şeyh MENA bölgesindeki AI manzarasını dönüştürüyor ve pasif tüketimden egemen inovasyona geçişi sağlıyor. CNTXT AI'nın CEO'su ve 10 milyon dolarlık bir AI fonunun kurucusu olarak üç başarılı çıkışa öncülük etti ve bir milyar doların üzerinde fon sağladı. Çalışmaları, dil, kültür ve veri egemenliğine dayanan bir AI ekosisteminin temellerini atıyor.
Dünyanın bu bölgesinde yeterince kullanılmayan veri bolluğunu gördük. Yapay zekayı ölçeklendirmedeki birçok sorun, veri hazırlığının eksikliğinden kaynaklanıyordu — bu da sonunda yapay zeka hazırlığının eksikliği anlamına geliyordu. Bu yüzden CNTXT AI'yı başlattık.
Başlangıçta, LocAI'yi oluştururken karşılaştığımız aynı sorunları çözüyorduk... Bu zorlukları AI71, TII ve G42 (IIAI) ile çalışırken ilk elden gördük. Bu kuruluşların bu sorunları çözmelerine yardımcı oldukça, vizyon daha da netleşti ve iş büyümeye devam etti.
Yapay zeka eğitimi için en büyük Arapça dijital kütüphaneyi oluşturmada önemli bir rol oynadınız. Bunu yaparken karşılaştığınız en büyük zorluklar nelerdi ve bunların üstesinden nasıl geldiniz?
Kalite en büyük zorluklardan biriydi. Bir diğeri de çevrimiçi olarak yüksek kaliteli Arapça verilerin sınırlı erişilebilirliğiydi: Arapça ciddi anlamda yetersiz temsil ediliyordu. Arapça içeriklerin yalnızca küçük bir kısmı dijitalleştirildi ve tüm çevrimiçi içeriklerin yalnızca %3-5'i Arapça. Bu neredeyse hiçbir şey. Bu sorunu, verileri kendimiz dijitalleştirmek, oluşturmak ve düzenlemek için veri etiketleyicileri, açıklayıcılar ve veri bilimcileri görevlendirerek aştık.
CNTXT AI, kültür ve hesaplamanın kesiştiği noktada faaliyet gösterir. MENA bölgesi için kültürel açıdan alakalı çözümler oluşturma hedefi ile son teknoloji AI inovasyonunu nasıl dengeliyorsunuz?
Temelden kültürel olarak temellendirilmiş modeller inşa ediyoruz. Altyapıdan nihai ürüne kadar, kültür en baştan itibaren yerleştirilmiştir; sonradan eklediğimiz bir şey değildir. İlk günden itibaren belirli kültürleri, lehçeleri ve ihtiyaçları göz önünde bulundurarak tasarlıyor, yeniliyor ve inşa ediyoruz. Arapça tek bir dildir, ancak bölge genelinde birçok lehçe ve kültürel bağlam taşır, bu nedenle yerel ülkeler için yerel ürünler inşa ediyoruz. Bunu da yerel yorumcularla, yani kendi ülkelerindeki yerel insanlarla çalışarak yapıyoruz.
Ayrıca LocAI'yi kurdunuz ve SMPL AI Fonu'na liderlik ediyorsunuz. Bu girişimler CNTXT AI'nın misyonunu nasıl tamamlıyor?
LocAI, uygulama katmanıdır — insanların gerçekten etkileşime girdiği kısımdır. CNTXT AI tarafından oluşturulan verilerin ve altyapının hemen üstünde yer alır. Başarılı olmasını sağlayan şey budur: CNTXT AI tarafından sağlanan AI temellerini insanların kullanabileceği gerçek dünya çözümlerine dönüştürür.
Öte yandan SMPL AI, topluluğa geri vermekle ilgilidir. Erken aşamadaki girişimlere yatırım yapmaya ve bölgesel AI ekosisteminin oluşturulmasına yardımcı olmaya odaklanır. AI'yı kendimiz oluştururken öğrendiğimiz araçları ve dersleri paylaşıyoruz, böylece kurucular daha hızlı büyüyebilir ve yaygın tuzaklardan kaçınabilir.
Munsit, dünyadaki en doğru Arapça konuşma tanıma modeli olarak adlandırıldı. Bu modelin geliştirilmesine ne sebep oldu ve neden şimdi?
Bu modelin geliştirilmesinin ardındaki sebep basitti: ihtiyaç.
Biz her zaman ihtiyaçtan dolayı inşa ederiz. Pazara baktık ve manzaranın olgunlaştığını gördük — hükümet kurumları ve özel müşteriler böyle bir çözüm istiyordu.
Mevcut modeller bu göreve uygun değildi. Çoğu İngilizce teknoloji üzerine kurulu ve sonra uyarlanmış. Bunlar baştan sona Arapça için tasarlanmamış ve kesinlikle çözdüğümüz belirli sorunlar için tasarlanmamış.
Bu yüzden kendimizinkini yapmaya karar verdik. Tasarım gereği ilk önce Arapça.
Munsit'in arkasındaki araştırma, zayıf bir şekilde denetlenen bir öğrenme yaklaşımı sunuyor. Bunun ne anlama geldiğini ve Arapça ASR'yi büyük ölçekte eğitmek için neden önemli olduğunu açıklayabilir misiniz?
Açıklama pahalıdır. Bu nedenle, büyük miktarda manuel transkripsiyona dayanan geleneksel yöntemlerin ötesine geçmek zorundaydık. Zayıf bir şekilde denetlenen öğrenme, her ses dosyasını elle etiketlemek zorunda kalmadan ölçeklendirmemize yardımcı oldu; bu, sınırlı veriye ve birçok farklı lehçeye sahip bir dil olan Arapça için özellikle önemlidir.
Profesyonel olarak transkribe edilmiş ses kullanmak yerine, 30,000 saatlik etiketlenmemiş Arapça konuşmayla başladık. Otomatik kontroller kullanarak en iyilerini üreten, filtreleyen ve temizleyen bir açıklama hattı oluşturduk. Bu bize, insan transkripsiyonu olmadan yüksek kaliteli 15,000 saatlik bir veri seti verdi.
Bu yaklaşım, modelimizi sıfırdan eğitmemizi, konuşulan Arapçanın zenginliğini gerçek yaşam durumlarında hızlı ve uygun maliyetli bir şekilde yakalamamızı mümkün kıldı. Bu yöntem olmadan, bu ölçekte bir Arapça ASR sistemi oluşturmak yıllar ve milyonlarca manuel çaba gerektirirdi.
Munsit, birden fazla kıyaslamada OpenAI, Microsoft ve Meta modellerini geride bıraktı. Bu başarı, Arap AI inovasyonunun geleceği hakkında ne söylüyor?
Arap AI'nın geleceği bizim elimizde; ve bu başarı tam olarak bunu kanıtlıyor. Artık sahip olmadığımız teknolojilere güvenmeyi veya bölgemize öncelik vermeyen üçüncü taraflara bağımlı olmayı göze alamayız.
Munsit, yerel yetenekleri kullanarak yerel sorunları çözerek bölgeden, bölge için dünya standartlarında AI inşa edebileceğimizi gösteriyor. Bu, bir sonraki Arap AI inovasyon dalgasının içeriden geleceğinin açık bir işareti.
Munsit'in gelecekteki versiyonlarında nasıl bir evrim geçireceğini düşünüyorsunuz ve CNTXT'de Arapça sesli yapay zekanın bundan sonraki sınırları nelerdir?
Bekleyip görmeniz gerekecek. Söyleyebileceğim şey, yolda Arapça öncelikli AI çözümlerinden oluşan yeni ve taze bir pakete sahip olduğumuzdur — hepsi Munsit ve şu anda CNTXT AI'da oluşturduğumuz diğer modellerle destekleniyor. Bu sadece başlangıç.
"Egemen AI"nın önemi hakkında sık sık konuşuyorsunuz. Bu terim sizin için ne anlama geliyor ve Körfez ve daha geniş MENA bölgesi için neden kritik öneme sahip?
Bana göre egemen AI, geleceğimizi şekillendiren veriler, altyapı ve modeller üzerinde tam mülkiyet ve kontrole sahip olmak anlamına gelir. Bu kritiktir çünkü kendi kaderimize sahip olmamız gerekir ve bu da verilerle başlar.
Veri egemenliği her şeydir. Veri değerlidir ve elimizde kaldığından emin olmamız gerekir.
Geleceğimizi teslim edip, başkaları bizim için teknoloji inşa ederken boş oturmayı göze alamayız. Bu bölgedeki yapay zekanın geleceği bu bölgeden gelecek. Tam olarak bunun için çalışıyoruz.
CNTXT AI'nın önümüzdeki beş yıl içinde Orta Doğu'daki yapay zeka ekosistemini nasıl şekillendireceğini düşünüyorsunuz?
Gerçek AI hazırlığını sağlayarak. İçeri giriyoruz, şirketlerin ve hükümetlerin neye ihtiyaç duyduğunu anlıyoruz, veri ve AI stratejilerini oluşturuyoruz ve ardından oluşturmalarına, test etmelerine, dağıtmalarına ve ölçeklendirmelerine yardımcı oluyoruz.
Eğer veri yeni petrol ise, o zaman yapılandırılmamış veri rafine edilmemiş petroldür; potansiyeli çoktur ancak işlenene kadar işe yaramaz. İşte bu yüzden kuruluşların verilerini temizlemelerine, yapılandırmalarına ve etkinleştirmelerine yardımcı olmak için CNTXT AI'yı oluşturduk. Çünkü gerçek AI dönüşümü orada başlıyor.
Hem girişimci hem de yatırımcı olarak, gelişmekte olan pazarlarda yapay zeka girişimleri kuran diğer kuruculara ne gibi tavsiyelerde bulunursunuz?
Hemen başla. Hızlı hareket et. Hızlı başarısız ol, daha hızlı öğren ve tekrarlamaya devam et.
En önemlisi, gerçek sorunlar için inşa edin. Yere yakın kalın — kullanıcıları dinleyin, sadece abartıyı değil. Gelişmekte olan pazarlarda, alaka ve uyarlanabilirlik anahtardır.
Harika röportaj için teşekkürler, daha fazla bilgi edinmek isteyen okuyucular ziyaret etmelidir. CNTXT Yapay Zeka.