Haastattelut
Mohammad Abu Sheikh, CNTXT AI:n perustaja ja toimitusjohtaja – Haastattelu sarja

Mohammad Abu Sheikh on muuttamassa tekoälymaiseman Lähi-idän ja Pohjois-Afrikan alueella, ajamalla muutosta passiivisesta kuluttamisesta suvereeniin innovaatioon. CNTXT AI:n toimitusjohtajana ja 10 miljoonan dollarin tekoälyrahaston perustajana hän on johtanut kolmea onnistunutta ulosmenoa ja turvannut yli miljardin dollarin rahoituksen. Hänen työnsä luo perustan tekoälyekosysteemille, joka perustuu kieleen, kulttuuriin ja datasuvereniteettiin.
CNTXT AI on digitaalisen muutoksen yritys, joka tarjoaa pilvi-infrastruktuuria, teollisuusohjelmistoja ja robotti-ratkaisuja, jotta organisaatiot voivat modernisoida toimintojaan ja avata dataohjattuja oivalluksia ympäri Lähi-idän ja Pohjois-Afrikan.
Mikä innoitti sinua perustamaan CNTXT AI:n, ja miten näkymäsi suvereenista tekoälystä arabiankielisessä maailmassa alkoi?
Me näimme, että tässä osassa maailmaa on runsaasti hyödyntämätöntä dataa. Monet ongelmat tekoälyn skaalauksessa johtuivat datan valmiuden puutteesta — mikä lopulta tarkoitti tekoälyn valmiuden puutetta. Siksi aloimme CNTXT AI:n.
Aluksi ratkaisimme samoja ongelmia, joita koimme rakennettaessa LocAI:aa… Näimme nämä haasteet omakohtaisesti työskennellessä AI71:n, TII:n ja G42:n (IIAI) kanssa. Kun auttimme näitä yksiköitä ratkaisemaan näitä ongelmia, visio selkeni ja liiketoiminta vain kasvoi.
Olet ollut avainasemassa rakentamassa suurinta arabiankielistä digitaalista kirjastoa tekoälykoulutukseen. Mitkä olivat suurimmat haasteet tämän tekemisessä, ja miten sinä ylitit ne?
Laatu oli yksi suurimmista haasteista. Toinen oli korkealaatuisen arabiankielisen datan rajoitettu saatavuus verkossa: arabia on vakavasti aliedustettu. Vain pieni osa arabiankielisistä sisällöistä on digitisoitu, ja vain 3–5 % verkossa olevasta sisällöstä on arabiankielistä. Se on melkein mitätön. Ratkaisimme tämän ongelman lähettämällää, annotoijia jaöitä digitoidakseen, luodakseen ja kuratoimaan datan itse.
CNTXT AI toimii kulttuurin ja laskennan leikkauspisteessä. Miten sinä tasapainotat viimeisimmän tekoäly-innovaation ja tavoitteen rakentaa kulttuurisesti merkityksellisiä ratkaisuja Lähi-idän ja Pohjois-Afrikan alueelle?
Rakennamme kulttuurisesti perustuvia malleja alusta alkaen. Infrastruktuurista lopputuotteeseen, kulttuuri on upotettu alusta alkaen — se ei ole jotain, mitä lisäämme myöhemmin. Suunnittelemme, innovoimme ja rakennamme tiettyjä kulttuureja, murteita ja tarpeita silmällä pitäen alusta alkaen. Arabia on yksi kieli, mutta se kantaa monia murteita ja kulttuurisia konteksteja ympäri aluetta, joten rakennamme paikallisia tuotteita paikallisille maille. Ja teemme sen työskentelemällä paikallisten annotoijien, maassa olevien ihmisten kanssa.
Olet myös perustanut LocAI:n ja johtanut SMPL AI -rahastoa. Miten nämä yritykset täydentävät CNTXT AI:n tehtävää?
LocAI on sovelluskerros — se osa, johon ihmiset ovat todella vuorovaikutuksessa. Se sijaitsee suoraan CNTXT AI:n rakentaman datan ja infrastruktuurin päällä. Se teki siitä onnistuneen: se muuttaa CNTXT AI:n tarjoamat tekoälyperustat todellisiksi ratkaisuiksi, joita ihmiset voivat käyttää.
SMPL AI taas on antamisesta yhteisölle. Se keskittyy sijoittamaan alkuvaiheen startup-yrityksiin ja auttamaan alueen tekoälyekosysteemin rakentamisessa. Jaamme työkalut ja opit, jotka olemme oppineet itse tekoälyn rakentamisesta, jotta perustajat voivat kasvaa nopeammin ja välttää yleisiä loukkuja.
Munsit on kutsuttu maailman tarkin arabiankieliseksi puheentunnistusmalliksi. Mikä ajoi tämän mallin kehittämisen, ja miksi nyt?
Mikä ajoi tämän mallin kehittämisen, oli yksinkertaisesti tarve.
Aina rakennamme tarpeen mukaan. Katselimme markkinaa ja näimme, että maisema oli kypsä — hallitukset ja yksityiset asiakkaat pyysivät kaikki ratkaisua tällaiselle.
Olemassa olevat mallit eivät olleet tehtävän tasolla. Useimmat on rakennettu englanninkieliselle teknologialle ja sovitettu siihen. Ne eivät ole suunniteltu arabiankielisiksi alusta alkaen, ja ehdottomasti ei niille ongelmille, joita ratkaismme.
Päätimme siis rakentaa oman. Se on arabiankielinen suunnittelun mukaan.
Tutkimus Munsitissa esittelee heikosti valvotun oppimisen lähestymistavan. Voitko selittää, mitä se tarkoittaa, ja miksi se oli välttämätöntä kouluttamiseen arabiankieliselle ASR:lle suuressa mittakaavassa?
Annotointi on kallista. Joten meidän piti siirtyä perinteisten menetelmien ulkopuolelle, jotka riippuvat suurista määristä manuaalista transkriptiota. Heikosti valvottu oppiminen auttoi meitä skaalautumaan ilman, että jokaisen äänitiedoston on merkittävä käsin — mikä on erityisen tärkeää arabian kielelle, jolla on rajoitettu määrä dataa ja monia eri murteita.
Sen sijaan, että käytimme ammattimaisesti transkriboitua ääntä, aloimme 30 000 tunnin äänipuheella. Rakensimme annotaatioputken, joka generoi, suodattaa ja puhdistaa parhaat automaattisilla tarkistuksilla. Tämä antoi meille laadukkaan 15 000 tunnin aineiston — kaikki ilman manuaalista transkriptiota.
Tämä lähestymistapa mahdollisti mallimme kouluttamisen alusta alkaen, joka sai kiinni puhutun arabian rikkauden todellisissa tilanteissa, nopeasti ja kustannustehokkaasti. Ilman tätä menetelmää arabiankielisen ASR-järjestelmän rakentaminen tässä mittakaavassa olisi kestänyt vuosia ja miljoonia manuaalista työtä.
Munsit suoritti paremmin kuin OpenAI:n, Microsoftin ja Meta:n mallit useilla mittareilla. Mitä tämä saavutus sanoo arabiankielisen tekoälyinnovaation tulevaisuudesta?
Arabiankielisen tekoälyn tulevaisuus on meidän käsissämme; ja juuri tämä saavutus osoittaa sen. Emme voi enää turvautua tekniikkaan, jota emme omista, tai riippua kolmansista osapuolista, jotka eivät priorisoi aluettaamme.
Munsit osoittaa, että voimme rakentaa maailmanluokan tekoälyä alueelta alueelle — käyttäen paikallista osaamista paikallisten ongelmien ratkaisemiseen. Se on selkeä signaali, että seuraava aalto arabiankielisestä tekoälyinnovaatiosta tulee sisältä.
Miten sinä näet Munsitin kehittyvän tulevissa versioissa, ja mitkä ovat seuraavat rintamat arabiankieliselle äänitekoälylle CNTXT:ssä?
Sinun vain odottaa ja nähdä. Mitä voin sanoa, on, että meillä on uusi, raikas sarja arabiankielisiä tekoälyratkaisuja tulossa — kaikki Munsitin ja muiden mallien voimin, joita kehitämme tällä hetkellä CNTXT AI:ssa. Tämä on vasta alku.
Usein puhut “suvereenin tekoälyn” tärkeydestä. Mitä tämä termi tarkoittaa sinulle, ja miksi se on kriittinen Gulfille ja laajemmalle Lähi-idän ja Pohjois-Afrikan alueelle?
Minulle suvereeni tekoäly tarkoittaa täydellistä omistajuutta ja hallintaa datan, infrastruktuurin ja mallien yllä, jotka muokkaavat tulevaisuuttamme. Se on kriittinen, koska meidän on omistettava oma kohtalomme, ja se alkaa datalla.
Datansuvereniteetti on kaikki. Data on arvokasta, ja meidän on varmistettava, että se pysyy käsissämme.
Emme voi antaa tulevaisuuttamme ja istua idyllisesti, kun toiset rakentavat teknologiaa meidän puolesta. Tulevaisuus tekoälystä tässä alueessa tulee tästä alueesta. Juuri sitä me työskentelemme.
Miten sinä näet CNTXT AI:n muokkaavan tekoälyekosysteemiä Lähi-idän ja Pohjois-Afrikan alueella seuraavien viiden vuoden aikana?
Mahdollistamalla todellisen tekoälyvalmiuden. Menemme sisään, ymmärrämme, mitä yrityksillä ja hallituksilla on tarve, rakennamme data- ja tekoälystrategiat, ja sitten autamme heitä rakentamaan, testaamaan, käyttöönottoon ja skaalautumaan.
Jos data on uusi öljy, niin rakenteeton data on öljy jalostamattomana — täynnä potentiaalia, mutta käyttökelvotonta, kunnes prosessoidaan. Siksi olemme rakentaneet CNTXT AI:n auttamaan organisaatioita puhdistamaan, rakentelemaan ja aktivoimaan datansa. Koska siinä alkaa todellinen tekoälymuutos.
Milta näkökulmasta sekä yrittäjänä että sijoittajana, mitä neuvoja sinä antaisit muille perustajille, jotka rakentavat tekoälystartuppeja nousujohtavilla markkinoilla?
Aloita nyt. Liiku nopeasti. Epäonnistu nopeasti, opi nopeammin ja jatka iterointia.
Ennen kaikkea, rakenna todellisiin ongelmiin. Pysy lähellä maata — kuuntele käyttäjiä, älä vain hypeä. Nousujohtavilla markkinoilla relevanttius ja sopeutumiskyky ovat avainasemassa.
Kiitos haastattelusta, lukijat, jotka haluavat oppia lisää, kannattaa vierailla CNTXT AI:ssa.












