Interviews
Mohammad Abu Sheikh, oprichter en CEO van CNTXT AI – Interviewserie

Mohammed Abu Sheikh transformeert het AI-landschap in de MENA-regio en stimuleert een verschuiving van passieve consumptie naar soevereine innovatie. Als CEO van CNTXT AI en oprichter van een AI-fonds van $ 10 miljoen heeft hij drie succesvolle exits geleid en meer dan een miljard dollar aan financiering veiliggesteld. Zijn werk legt de basis voor een AI-ecosysteem geworteld in taal, cultuur en datasoevereiniteit.
We zagen de overvloed aan onderbenutte data in dit deel van de wereld. Veel problemen bij het opschalen van AI kwamen voort uit het gebrek aan datagereedheid – wat uiteindelijk leidde tot een gebrek aan AI-gereedheid. Daarom zijn we CNTXT AI gestart.
Aanvankelijk losten we dezelfde problemen op als bij de ontwikkeling van LocAI... We zagen deze uitdagingen met eigen ogen toen we samenwerkten met AI71, TII en G42 (IIAI). Naarmate we deze entiteiten hielpen deze problemen op te lossen, werd de visie duidelijker en bleef het bedrijf groeien.
Je hebt een sleutelrol gespeeld bij het opbouwen van de grootste Arabische digitale bibliotheek voor AI-training. Wat waren enkele van de grootste uitdagingen daarbij en hoe heb je die overwonnen?
Kwaliteit was een van de grootste uitdagingen. Een andere was de beperkte beschikbaarheid van hoogwaardige Arabische data online: Arabisch is ernstig ondervertegenwoordigd. Slechts een klein deel van de Arabischtalige content is gedigitaliseerd en slechts 3-5% van alle online content is in het Arabisch. Dat is bijna niets. We hebben dat probleem opgelost door datalabelers, annotators en datawetenschappers in te zetten om de data zelf te digitaliseren, te creëren en te beheren.
CNTXT AI opereert op het snijvlak van cultuur en computing. Hoe combineer je baanbrekende AI-innovatie met het doel om cultureel relevante oplossingen te ontwikkelen voor de MENA-regio?
We bouwen cultureel gefundeerde modellen vanaf de grond af. Van infrastructuur tot eindproduct, cultuur is vanaf het allereerste begin verankerd – het is niet iets wat we later toevoegen. We ontwerpen, innoveren en bouwen met specifieke culturen, dialecten en behoeften in gedachten vanaf dag één. Arabisch is één taal, maar kent vele dialecten en culturele contexten in de regio, dus we bouwen lokale producten voor lokale landen. En dat doen we door samen te werken met lokale annotators, mensen ter plaatse, in hun eigen land.
Je bent ook medeoprichter van LocAI en leidt het SMPL AI Fund. Hoe vullen deze ondernemingen de missie van CNTXT AI aan?
LocAI is de applicatielaag – het deel waarmee mensen daadwerkelijk interacteren. Het is direct gebaseerd op de data en infrastructuur die CNTXT AI heeft ontwikkeld. Dat is wat het succesvol heeft gemaakt: het transformeert de AI-fundamenten van CNTXT AI in praktische oplossingen die mensen kunnen gebruiken.
SMPL AI daarentegen draait om teruggeven aan de gemeenschap. Het richt zich op investeringen in startups in een vroeg stadium en het helpen opbouwen van het regionale AI-ecosysteem. We delen de tools en lessen die we hebben geleerd door zelf AI te ontwikkelen, zodat oprichters sneller kunnen groeien en veelvoorkomende valkuilen kunnen vermijden.
Munsit wordt wel het meest accurate Arabische spraakherkenningsmodel ter wereld genoemd. Wat was de aanleiding voor de ontwikkeling van dit model en waarom nu?
De reden voor de ontwikkeling van dit model was eenvoudig: de noodzaak.
We bouwen altijd uit noodzaak. We keken naar de markt en zagen dat het landschap er rijp voor was: overheidsinstanties en particuliere klanten vroegen allemaal om een ​​oplossing als deze.
De bestaande modellen voldeden gewoon niet aan de eisen. De meeste zijn gebaseerd op Engelse technologie en vervolgens aangepast. Ze zijn niet van de grond af aan ontworpen voor Arabisch, en al helemaal niet voor de specifieke problemen die we oplossen.
Dus besloten we er zelf een te bouwen. Het is Arabisch-eerst – zo bedoeld.
Het onderzoek achter Munsit introduceert een zwak begeleide leermethode. Kunt u uitleggen wat dat betekent en waarom het essentieel was voor het op grote schaal trainen van Arabische ASR?
Annotatie is duur. Daarom moesten we verder kijken dan traditionele methoden die afhankelijk zijn van grote hoeveelheden handmatige transcriptie. Dankzij zwak begeleid leren konden we opschalen zonder elk audiobestand handmatig te hoeven labelen – wat vooral belangrijk is voor het Arabisch, een taal met beperkte data en veel verschillende dialecten.
In plaats van professioneel getranscribeerde audio te gebruiken, begonnen we met 30,000 uur aan ongelabelde Arabische spraak. We bouwden een annotatiepijplijn die de beste annotaties genereert, filtert en opschoont met behulp van geautomatiseerde controles. Dit leverde ons een hoogwaardige dataset van 15,000 uur op – allemaal zonder menselijke transcriptie.
Deze aanpak maakte het mogelijk om ons model vanaf nul te trainen en zo de rijkdom van gesproken Arabisch in praktijksituaties snel en kosteneffectief vast te leggen. Zonder deze methode zou het bouwen van een Arabisch ASR-systeem op deze schaal jaren en miljoenen aan handmatige inspanning hebben gekost.
Munsit presteerde beter dan modellen van OpenAI, Microsoft en Meta in meerdere benchmarks. Wat zegt deze prestatie over de toekomst van Arabische AI-innovatie?
De toekomst van Arabische AI ​​ligt in onze handen; en dat is precies wat deze prestatie bewijst. We kunnen het ons niet langer veroorloven om te vertrouwen op technologieën die we niet bezitten, of afhankelijk te zijn van derden die onze regio geen prioriteit geven.
Munsit laat zien dat we AI van wereldklasse kunnen bouwen, vanuit de regio, voor de regio – door lokaal talent te gebruiken om lokale problemen op te lossen. Het is een duidelijk signaal dat de volgende golf van Arabische AI-innovatie van binnenuit zal komen.
Hoe denk je dat Munsit zich in toekomstige versies zal ontwikkelen en wat zijn de volgende ontwikkelingen op het gebied van Arabische spraak-AI bij CNTXT?
Je zult het moeten afwachten. Wat ik wel kan zeggen, is dat we een frisse, nieuwe reeks Arabisch-georiënteerde AI-oplossingen in de maak hebben – allemaal aangestuurd door Munsit en andere modellen die we momenteel bij CNTXT AI bouwen. Dit is nog maar het begin.
U spreekt vaak over het belang van 'soevereine AI'. Wat betekent die term voor u en waarom is die cruciaal voor de Golfregio en de bredere MENA-regio?
Voor mij betekent soevereine AI volledige zeggenschap en controle over de data, infrastructuur en modellen die onze toekomst vormgeven. Het is cruciaal omdat we ons eigen lot in handen moeten hebben, en dat begint met data.
Datasoevereiniteit is alles. Data is kostbaar en we moeten ervoor zorgen dat we er zelf de controle over houden.
We kunnen het ons niet veroorloven onze toekomst op te geven en stil te zitten terwijl anderen de technologie voor ons bouwen. De toekomst van AI in deze regio komt uit deze regio. Dat is precies waar we naartoe werken.
Hoe denkt u dat CNTXT AI de komende vijf jaar het AI-ecosysteem in het Midden-Oosten gaat vormgeven?
Door echte AI-gereedheid mogelijk te maken. We gaan aan de slag, begrijpen wat bedrijven en overheden nodig hebben, ontwikkelen de data- en AI-strategieën en helpen hen vervolgens met het ontwikkelen, testen, implementeren en opschalen.
Als data de nieuwe olie is, dan zijn ongestructureerde data ongeraffineerde olie: vol potentieel, maar nutteloos totdat ze verwerkt worden. Daarom hebben we CNTXT AI ontwikkeld om organisaties te helpen hun data op te schonen, te structureren en te activeren. Want daar begint de echte AI-transformatie.
Welk advies zou u, vanuit uw perspectief als ondernemer en investeerder, geven aan andere oprichters die AI-startups opzetten in opkomende markten?
Begin nu. Beweeg snel. Faal snel, leer sneller en blijf herhalen.
Het allerbelangrijkste: bouw voor echte problemen. Blijf dicht bij de grond – luister naar gebruikers, niet alleen naar de hype. In opkomende markten zijn relevantie en aanpassingsvermogen essentieel.
Bedankt voor het geweldige interview, lezers die meer willen weten, zouden moeten bezoeken CNTXT AI.