Wywiady
Mohammad Abu Sheikh, Założyciel & CEO CNTXT AI – Seria Wywiadów

Mohammad Abu Sheikh przekształca krajobraz AI w regionie MENA, prowadząc przemianę od biernego konsumpcjonizmu do suwerennych innowacji. Jako CEO CNTXT AI i założyciel funduszu AI o wartości 10 milionów dolarów, poprowadził trzy udane wyjścia i zabezpieczył ponad miliard dolarów w finansowaniu. Jego praca stanowi podstawę dla ekosystemu AI, który opiera się na języku, kulturze i suwerenności danych.
CNTXT AI to cyfrowa firma transformacji, która dostarcza chmury infrastruktury, oprogramowania przemysłowego i rozwiązań robotyki, aby pomóc organizacjom zmodernizować operacje i odblokować dane napędzane przez dane w całym Bliskim Wschodzie i Afryce Północnej.
Czym skłoniło Cię do założenia CNTXT AI, i jak Twoja wizja suwerennego AI w świecie arabskojęzycznym się zaczęła?
Widzieliśmy obfitość niewykorzystanych danych w tej części świata. Wiele problemów ze skalowaniem AI wynikało z braku gotowości danych — co ostatecznie oznaczało brak gotowości AI. Dlatego założyliśmy CNTXT AI.
Początkowo rozwiązywaliśmy te same problemy, z którymi spotkaliśmy się podczas budowy LocAI… Zobaczyliśmy te wyzwania na własne oczy, pracując z AI71, TII i G42 (IIAI). Gdy pomogliśmy tym podmiotom rozwiązać te problemy, wizja stała się bardziej klarowna, a biznes po prostu rosł.
Zagrałeś kluczową rolę w budowie największej arabskiej cyfrowej biblioteki do szkolenia AI. Jakie były największe wyzwania w tym przedsięwzięciu, i jak je pokonałeś?
Jakością była jedna z największych wyzwań. Innym było ograniczona dostępność wysokiej jakości arabskich danych w sieci: język arabski jest poważnie niedoreprezentowany. Tylko niewielka część arabskojęzycznych treści została zdigitalizowana, a tylko 3–5% wszystkich treści online jest w języku arabskim. To prawie nic. Pokonaliśmy ten problem, wdrożając etykietowanie danych, adnotatorów i naukowców, aby zdigitalizować, stworzyć i opracować dane sami.
CNTXT AI działa na przecięciu kultury i obliczeń. Jak balansujesz innowacje AI z celem budowania rozwiązań kulturowo istotnych dla regionu MENA?
Budujemy modele zakorzenione w kulturze od podstaw. Od infrastruktury do końcowego produktu, kultura jest wbudowana od samego początku — nie jest czymś, co dodajemy później. Projektujemy, innowujemy i budujemy z uwzględnieniem konkretnych kultur, dialektów i potrzeb od samego początku. Język arabski to jeden język, ale niesie ze sobą wiele dialektów i kontekstów kulturowych w regionie, więc budujemy lokalne produkty dla lokalnych krajów. I robimy to, pracując z lokalnymi adnotatorami, ludźmi na miejscu, w ich własnych krajach.
Założyłeś również LocAI i kierujesz funduszem SMPL AI. Jak te przedsięwzięcia uzupełniają misję CNTXT AI?
LocAI to warstwa aplikacji — część, z którą ludzie naprawdę wchodzą w interakcję. Siedzi bezpośrednio na górze danych i infrastruktury zbudowanej przez CNTXT AI. To sprawiło, że stało się sukcesem: przekształca podstawy AI dostarczone przez CNTXT AI w rozwiązania świata rzeczywistego, których ludzie mogą używać.
SMPL AI, z drugiej strony, dotyczy oddawania czegoś społeczności. Koncentruje się na inwestowaniu w startupy we wczesnej fazie i pomocy w budowaniu regionalnego ekosystemu AI. Udostępniamy narzędzia i lekcje, które nauczyliśmy się, budując AI sami, aby założyciele mogli rozwijać się szybciej i unikać powszechnych pułapek.
Munsit został nazwany najdokładniejszym modelem rozpoznawania mowy arabskiej na świecie. Co napędzało rozwój tego modelu, i dlaczego teraz?
To, co napędzało rozwój tego modelu, było proste: potrzeba.
Zawsze budujemy z potrzeby. Spójrzeliśmy na rynek i zobaczyliśmy, że krajobraz był dojrzały — agencje rządowe i klienci prywatni wszyscy prosili o rozwiązanie takie jak to.
Istniejące modele po prostu nie były wystarczająco dobre. Większość z nich została zbudowana na technologii angielskiej, a następnie dostosowana. Nie zostały one zaprojektowane dla języka arabskiego od podstaw, a na pewno nie dla konkretnych problemów, które rozwiązujemy.
Postanowiliśmy więc zbudować własne. Jest to arabski od samego początku — z założenia.
Badania nad Munsit wprowadzają podejście słabo nadzorowanego uczenia. Czy możesz wyjaśnić, co to znaczy i dlaczego było to niezbędne do szkolenia arabskiego ASR na dużą skalę?
Adnotacja jest droga. Więc musieliśmy wyjść poza tradycyjne metody, które opierają się na dużych ilościach ręcznej transkrypcji. Uczenie słabo nadzorowane pomogło nam skalować bez konieczności ręcznego oznaczania każdego pliku audio — co jest szczególnie ważne dla języka arabskiego, który ma ograniczone dane i wiele różnych dialektów.
Zamiast używać profesjonalnie przepisanych audio, zaczęliśmy od 30 000 godzin nienagranego arabskiego mówienia. Zbudowaliśmy potok adnotacji, który generuje, filtruje i czyści najlepsze przy użyciu automatycznych sprawdzeń. To dało nam wysokiej jakości zestaw danych o objętości 15 000 godzin — wszystko to bez ręcznej transkrypcji.
To podejście umożliwiło nam przeszkolenie naszego modelu od podstaw, uchwycenie bogactwa mówionego języka arabskiego w różnych sytuacjach życiowych, szybko i tanio. Bez tego podejścia budowanie systemu ASR dla języka arabskiego na tej skali zajęłoby lata i miliony dolarów w nakładzie ręcznym.
Munsit przewyższył modele od OpenAI, Microsoft i Meta w wielu benchmarkach. Co to osiągnięcie mówi o przyszłości innowacji AI w języku arabskim?
Przyszłość AI w języku arabskim leży w naszych rękach; i to właśnie to osiągnięcie udowadnia. Nie możemy już pozwolić sobie na poleganie na technologiach, których nie posiadamy, ani na zależności od stron trzecich, które nie priorytetowo traktują naszego regionu.
Munsit pokazuje, że możemy budować AI światowej klasy, z regionu, dla regionu — używając lokalnego talentu do rozwiązywania lokalnych problemów. Jest to wyraźny sygnał, że następna fala innowacji AI w języku arabskim przyjdzie z wnętrza.
Jak widzisz ewolucję Munsit w przyszłych wersjach, i co są następne granice dla arabskiego głosowego AI w CNTXT?
Po prostu musisz poczekać i zobaczyć. To, co mogę powiedzieć, to to, że mamy nowy, świeży zestaw arabskich rozwiązań AI, napędzanych przez Munsit i inne modele, które obecnie budujemy w CNTXT AI. To dopiero początek.
Często mówisz o ważności „suwerennego AI”. Co to pojęcie znaczy dla Ciebie, i dlaczego jest to kluczowe dla Zatoki i szerszego regionu MENA?
Dla mnie suwerenne AI oznacza posiadanie pełnej własności i kontroli nad danymi, infrastrukturą i modelami, które kształtują naszą przyszłość. Jest to kluczowe, ponieważ musimy władać własnym losem, i to zaczyna się od danych.
Suwerenność danych jest wszystkim. Dane są cenne, i musimy się upewnić, że pozostają w naszych rękach.
Nie możemy pozwolić sobie na oddanie naszej przyszłości i siedzenie bezczynnie, podczas gdy inni budują technologie dla nas. Przyszłość AI w tym regionie przyjdzie z tego regionu. To właśnie do tego dążymy.
Jak widzisz CNTXT AI kształtujące ekosystem AI na Bliskim Wschodzie w ciągu najbliższych pięciu lat?
Poprzez umożliwienie prawdziwej gotowości AI. Wchodzimy, rozumiemy, czego potrzebują firmy i rządy, budujemy strategie danych i AI, a następnie pomagamy im budować, testować, wdrażać i skalować.
Jeśli dane są nową ropy, to niestrukturyzowane dane są ropą nierafinowaną — pełne potencjału, ale bezużyteczne, dopóki nie zostaną przetworzone. Dlatego zbudowaliśmy CNTXT AI, aby pomóc organizacjom oczyścić, uporządkować i aktywować ich dane. Ponieważ to jest tam, gdzie zaczyna się prawdziwa transformacja AI.
Z Twojej perspektywy jako przedsiębiorcy i inwestora, jaki doradzisz innym założycielom budującym startupy AI na rynkach wschodzących?
Zacznij teraz. Poruszaj się szybko. Awansuj szybko, ucz się szybciej, i kontynuuj iterację.
Najważniejsze, buduj dla prawdziwych problemów. Zostań blisko ziemi — słuchaj użytkowników, a nie tylko hype’u. Na rynkach wschodzących istotne są istotność i adaptacyjność.
Dziękuję za wspaniały wywiad, czytelnicy, którzy chcą dowiedzieć się więcej, powinni odwiedzić CNTXT AI.












