Connect with us

Mohammad Abu Sheikh, Fondateur & PDG de CNTXT AI – Série d’entretiens

Interviews

Mohammad Abu Sheikh, Fondateur & PDG de CNTXT AI – Série d’entretiens

mm

Mohammad Abu Sheikh est en train de transformer le paysage de l’IA dans la région MENA, en passant d’une consommation passive à une innovation souveraine. En tant que PDG de CNTXT AI et fondateur d’un fonds d’IA de 10 millions de dollars, il a dirigé trois sorties réussies et sécurisé plus d’un milliard de dollars de financement. Son travail pose les fondements d’un écosystème d’IA enraciné dans la langue, la culture et la souveraineté des données.

CNTXT AI est une entreprise de transformation numérique qui fournit des infrastructures cloud, des logiciels industriels et des solutions de robotique pour aider les organisations à moderniser leurs opérations et à débloquer des insights basés sur les données à travers le Moyen-Orient et l’Afrique du Nord.

Qu’est-ce qui vous a inspiré pour créer CNTXT AI, et comment votre vision pour une IA souveraine dans le monde arabe a-t-elle commencé ?

Nous avons vu l’abondance de données sous-utilisées dans cette partie du monde. Beaucoup de problèmes liés à la mise à l’échelle de l’IA venaient du manque de préparation des données — ce qui signifiait finalement un manque de préparation à l’IA. C’est pourquoi nous avons créé CNTXT AI.

Au début, nous résolvions les mêmes problèmes que nous avions rencontrés lors de la construction de LocAI… Nous avons vu ces défis de première main en travaillant avec AI71, TII et G42 (IIAI). Alors que nous aidions ces entités à résoudre ces problèmes, la vision est devenue plus claire et l’entreprise a simplement continué à grandir.

Vous avez joué un rôle clé dans la création de la plus grande bibliothèque numérique arabe pour la formation de l’IA. Quels ont été les plus grands défis pour y parvenir, et comment les avez-vous surmontés ?

La qualité était l’un des plus grands défis. Un autre était la disponibilité limitée de données arabes de haute qualité en ligne : l’arabe est gravement sous-représenté. Seule une petite partie du contenu en langue arabe a été numérisée, et seulement 3-5 % de tout le contenu en ligne est en arabe. C’est presque rien. Nous avons surmonté ce problème en déployant des étiqueteurs de données, des annotateurs et des scientifiques des données pour numériser, créer et curer les données nous-mêmes.

CNTXT AI opère à l’intersection de la culture et de la computation. Comment équilibrez-vous l’innovation de pointe en IA avec l’objectif de construire des solutions pertinentes sur le plan culturel pour la région MENA ?

Nous construisons des modèles ancrés dans la culture dès le départ. De l’infrastructure au produit final, la culture est intégrée dès le début — ce n’est pas quelque chose que nous ajoutons plus tard. Nous concevons, innovons et construisons en tenant compte des cultures, des dialectes et des besoins spécifiques dès le premier jour. L’arabe est une langue, mais elle comporte de nombreux dialectes et contextes culturels à travers la région, nous construisons donc des produits locaux pour les pays locaux. Et nous le faisons en travaillant avec des annotateurs locaux, des personnes sur le terrain, dans leurs propres pays.

Vous avez également co-fondé LocAI et dirigé le fonds SMPL AI. Comment ces entreprises complètent-elles la mission de CNTXT AI ?

LocAI est la couche d’application — la partie avec laquelle les gens interagissent réellement. Elle se situe directement au-dessus des données et des infrastructures construites par CNTXT AI. C’est ce qui l’a rendu réussi : il transforme les fondations d’IA fournies par CNTXT AI en solutions réelles que les gens peuvent utiliser.

SMPL AI, en revanche, est à propos de donner en retour à la communauté. Il se concentre sur l’investissement dans les startups en phase de démarrage et l’aide à la construction de l’écosystème régional d’IA. Nous partageons les outils et les leçons que nous avons apprises en construisant nous-mêmes l’IA, afin que les fondateurs puissent grandir plus rapidement et éviter les pièges courants.

Munsit a été appelé le modèle de reconnaissance vocale arabe le plus précis au monde. Qu’est-ce qui a conduit au développement de ce modèle, et pourquoi maintenant ?

Ce qui a conduit au développement de ce modèle était simple : le besoin.

Nous construisons toujours par nécessité. Nous avons regardé le marché et vu que le paysage était mûr — les agences gouvernementales et les clients privés demandaient tous une solution comme celle-ci.

Les modèles existants n’étaient pas à la hauteur de la tâche. La plupart sont construits sur la technologie anglaise, puis adaptés. Ils ne sont pas conçus pour l’arabe dès le départ, et certainement pas pour les problèmes spécifiques que nous résolvons.

Nous avons donc décidé de construire le nôtre. C’est arabe d’abord — par conception.

La recherche derrière Munsit introduit une approche d’apprentissage faiblement supervisé. Pouvez-vous expliquer ce que cela signifie et pourquoi cela était essentiel pour la formation de la reconnaissance vocale arabe à grande échelle ?

L’annotation est coûteuse. Nous devions donc aller au-delà des méthodes traditionnelles qui dépendent de grandes quantités de transcription manuelle. L’apprentissage faiblement supervisé nous a aidés à mettre à l’échelle sans avoir à étiqueter chaque fichier audio à la main — ce qui est particulièrement important pour l’arabe, une langue avec des données limitées et de nombreux dialectes différents.

Au lieu d’utiliser des enregistrements audio transcrits professionnellement, nous avons commencé avec 30 000 heures de discours arabe non étiquetés. Nous avons construit un pipeline d’annotation qui génère, filtre et nettoie les meilleurs en utilisant des vérifications automatisées. Cela nous a donné un ensemble de données de haute qualité de 15 000 heures — tout sans transcription humaine.

Cette approche a rendu possible la formation de notre modèle dès le départ, en capturant la richesse du discours arabe parlé dans des situations de la vie réelle, rapidement et de manière rentable. Sans cette méthode, la construction d’un système de reconnaissance vocale arabe à cette échelle aurait pris des années et des millions en effort manuel.

Munsit a surpassé les modèles d’OpenAI, de Microsoft et de Meta sur plusieurs benchmarks. Qu’est-ce que cette réalisation dit sur l’avenir de l’innovation arabe en IA ?

L’avenir de l’IA arabe est entre nos mains ; et c’est exactement ce que cette réalisation prouve. Nous ne pouvons plus nous permettre de dépendre de technologies que nous ne possédons pas ou de faire confiance à des tiers qui ne donnent pas la priorité à notre région.

Munsit montre que nous pouvons construire une IA de classe mondiale, à partir de la région, pour la région — en utilisant les talents locaux pour résoudre les problèmes locaux. C’est un signal clair que la prochaine vague d’innovation arabe en IA viendra de l’intérieur.

Comment voyez-vous Munsit évoluer dans les prochaines versions, et quels sont les prochains fronts pour la reconnaissance vocale arabe chez CNTXT ?

Vous devrez simplement attendre et voir. Ce que je peux dire, c’est que nous avons un nouveau ensemble de solutions d’IA arabe de première qualité en route — toutes alimentées par Munsit et d’autres modèles que nous construisons actuellement chez CNTXT AI. C’est juste le début.

Vous parlez souvent de l’importance de l’« IA souveraine ». Qu’est-ce que ce terme signifie pour vous, et pourquoi est-il critique pour le Golfe et la région MENA plus large ?

Pour moi, l’IA souveraine signifie avoir la pleine propriété et le contrôle des données, des infrastructures et des modèles qui façonnent notre avenir. C’est critique parce que nous devons posséder notre propre destin, et que cela commence par les données.

La souveraineté des données est tout. Les données sont précieuses, et nous devons nous assurer qu’elles restent entre nos mains.

Nous ne pouvons pas nous permettre de confier notre avenir et de rester inactifs pendant que les autres construisent la technologie pour nous. L’avenir de l’IA dans cette région viendra de cette région. C’est exactement ce que nous travaillons à réaliser.

Comment voyez-vous CNTXT AI façonnant l’écosystème d’IA au Moyen-Orient au cours des cinq prochaines années ?

En permettant une véritable préparation à l’IA. Nous allons comprendre ce dont les entreprises et les gouvernements ont besoin, construire les stratégies de données et d’IA, puis les aider à construire, tester, déployer et mettre à l’échelle.

Si les données sont le nouvel or, alors les données non structurées sont de l’or non raffiné — plein de potentiel mais inutile jusqu’à ce qu’elles soient traitées. C’est pourquoi nous avons construit CNTXT AI pour aider les organisations à nettoyer, structurer et activer leurs données. Parce que c’est là que commence la véritable transformation de l’IA.

Depuis votre point de vue en tant qu’entrepreneur et investisseur, quels conseils donneriez-vous aux autres fondateurs qui construisent des startups d’IA sur les marchés émergents ?

Commencez maintenant. Déplacez-vous rapidement. Échouez rapidement, apprenez plus vite et continuez à itérer.

Le plus important, construisez pour résoudre de vrais problèmes. Restez proche du sol — écoutez les utilisateurs, pas seulement l’hype. Sur les marchés émergents, la pertinence et l’adaptabilité sont clés.

Je vous remercie pour cette grande interview, les lecteurs qui souhaitent en savoir plus peuvent visiter CNTXT AI.

Antoine est un leader visionnaire et partenaire fondateur de Unite.AI, animé par une passion inébranlable pour façonner et promouvoir l'avenir de l'IA et de la robotique. Un entrepreneur en série, il croit que l'IA sera aussi perturbatrice pour la société que l'électricité, et se fait souvent prendre en train de vanter le potentiel des technologies perturbatrices et de l'AGI.
En tant que futurist, il se consacre à explorer comment ces innovations vont façonner notre monde. En outre, il est le fondateur de Securities.io, une plateforme axée sur l'investissement dans les technologies de pointe qui redéfinissent l'avenir et remodelent des secteurs entiers.