Interviews
Mohammad Abu Sheikh, fondateur et PDG de CNTXT AI – Série d'entretiens

Mohammed Abou Cheikh transforme le paysage de l'IA dans la région MENA, favorisant la transition d'une consommation passive vers une innovation souveraine. En tant que PDG de CNTXT AI et fondateur d'un fonds d'IA de 10 millions de dollars, il a mené à bien trois cessions et levé plus d'un milliard de dollars de financement. Son travail pose les bases d'un écosystème d'IA ancré dans la langue, la culture et la souveraineté des données.
Nous avons constaté l'abondance de données sous-exploitées dans cette région du monde. De nombreux problèmes de mise à l'échelle de l'IA provenaient du manque de préparation des données, ce qui a finalement entraîné un manque de préparation de l'IA. C'est pourquoi nous avons lancé CNTXT AI.
Au départ, nous avons résolu les mêmes problèmes que lors du développement de LocAI… Nous avons constaté ces difficultés en travaillant avec AI71, TII et G42 (IIAI). En aidant ces entités à résoudre ces problèmes, notre vision s'est précisée et l'entreprise a poursuivi sa croissance.
Vous avez joué un rôle clé dans la création de la plus grande bibliothèque numérique arabe pour la formation en IA. Quels ont été les plus grands défis à relever et comment les avez-vous surmontés ?
La qualité était l'un des plus grands défis. Un autre était la disponibilité limitée de données arabes de qualité en ligne : l'arabe est gravement sous-représenté. Seule une petite partie du contenu en langue arabe a été numérisée, et seulement 3 à 5 % de l'ensemble du contenu en ligne est en arabe. C'est presque rien. Nous avons surmonté ce problème en déployant des étiqueteurs de données, des annotateurs et des data scientists pour numériser, créer et organiser les données nous-mêmes.
CNTXT AI opère à l'intersection de la culture et de l'informatique. Comment concilier l'innovation de pointe en IA et l'objectif de créer des solutions culturellement pertinentes pour la région MENA ?
Nous construisons des modèles ancrés dans la culture dès le départ. De l'infrastructure au produit final, la culture est intégrée dès le départ ; ce n'est pas un ajout ultérieur. Nous concevons, innovons et construisons en tenant compte des cultures, dialectes et besoins spécifiques dès le départ. L'arabe est une langue unique, mais elle englobe de nombreux dialectes et contextes culturels dans la région. Nous créons donc des produits locaux pour les pays concernés. Et nous y parvenons en collaborant avec des annotateurs locaux, des personnes sur le terrain, dans leurs propres pays.
Vous avez également cofondé LocAI et dirigé le fonds SMPL AI. Comment ces projets complètent-ils la mission de CNTXT AI ?
LocAI est la couche applicative, la partie avec laquelle les utilisateurs interagissent réellement. Elle repose directement sur les données et l'infrastructure développées par CNTXT AI. C'est ce qui a fait son succès : elle transforme les fondements de l'IA fournis par CNTXT AI en solutions concrètes et utilisables par tous.
SMPL AI, quant à elle, s'engage à contribuer à la communauté. Elle investit dans des startups en phase de démarrage et contribue au développement de l'écosystème régional de l'IA. Nous partageons les outils et les enseignements tirés de notre propre développement d'IA, afin que les fondateurs puissent se développer plus rapidement et éviter les pièges courants.
Munsit a été qualifié de modèle de reconnaissance vocale arabe le plus précis au monde. Qu'est-ce qui a motivé le développement de ce modèle, et pourquoi maintenant ?
Ce qui a motivé le développement de ce modèle était simple : le besoin.
Nous construisons toujours par nécessité. Nous avons étudié le marché et constaté que le terrain était propice : les agences gouvernementales et les clients privés demandaient tous une solution de ce type.
Les modèles existants n'étaient tout simplement pas à la hauteur. La plupart d'entre eux étaient basés sur une technologie anglaise, puis adaptés. Ils n'étaient pas conçus dès le départ pour l'arabe, et certainement pas pour les problèmes spécifiques que nous résolvons.
Nous avons donc décidé de construire le nôtre. Il est d'abord arabe, par conception.
La recherche à l'origine de Munsit introduit une approche d'apprentissage faiblement supervisé. Pouvez-vous expliquer ce que cela signifie et pourquoi c'était essentiel pour former la reconnaissance automatique de la parole en arabe à grande échelle ?
L'annotation est coûteuse. Nous avons donc dû abandonner les méthodes traditionnelles qui reposent sur de nombreuses transcriptions manuelles. L'apprentissage faiblement supervisé nous a permis d'évoluer sans avoir à étiqueter chaque fichier audio à la main, ce qui est particulièrement important pour l'arabe, une langue dont les données sont limitées et qui compte de nombreux dialectes.
Au lieu d'utiliser des transcriptions audio professionnelles, nous avons utilisé 30,000 15,000 heures de discours arabes non étiquetés. Nous avons développé un pipeline d'annotation qui génère, filtre et nettoie les meilleurs éléments grâce à des vérifications automatisées. Nous avons ainsi obtenu un ensemble de données de haute qualité de XNUMX XNUMX heures, le tout sans transcription humaine.
Cette approche a permis d'entraîner notre modèle de A à Z, capturant ainsi la richesse de l'arabe parlé dans des situations réelles, rapidement et à moindre coût. Sans cette méthode, la création d'un système de reconnaissance automatique de la parole en arabe à cette échelle aurait nécessité des années et des millions de travail manuel.
Munsit a surpassé les modèles d'OpenAI, de Microsoft et de Meta sur de nombreux benchmarks. Que révèle cette performance sur l'avenir de l'innovation en IA dans le monde arabe ?
L'avenir de l'IA arabe est entre nos mains ; et c'est précisément ce que prouve cette réussite. Nous ne pouvons plus nous permettre de dépendre de technologies qui ne nous appartiennent pas ou de tiers qui ne donnent pas la priorité à notre région.
Munsit démontre que nous pouvons créer une IA de classe mondiale, à partir de la région et pour la région, en utilisant les talents locaux pour résoudre les problèmes locaux. C'est un signal clair : la prochaine vague d'innovation en IA arabe viendra de l'intérieur.
Comment voyez-vous l'évolution de Munsit dans les versions futures et quelles sont les prochaines frontières de l'IA vocale arabe chez CNTXT ?
Il faudra attendre pour voir. Ce que je peux dire, c'est que nous avons une nouvelle suite de solutions d'IA entièrement dédiées à l'arabe en développement, toutes basées sur Munsit et d'autres modèles que nous développons actuellement chez CNTXT AI. Ce n'est qu'un début.
Vous évoquez souvent l'importance d'une « IA souveraine ». Que signifie ce terme pour vous et pourquoi est-il crucial pour le Golfe et la région MENA ?
Pour moi, l'IA souveraine signifie avoir la pleine propriété et le contrôle des données, des infrastructures et des modèles qui façonnent notre avenir. C'est essentiel, car nous devons être maîtres de notre destin, et cela commence par les données.
La souveraineté des données est primordiale. Elles sont précieuses et nous devons veiller à ce qu'elles restent entre nos mains.
Nous ne pouvons pas nous permettre de laisser notre avenir à l'abandon et de rester les bras croisés pendant que d'autres construisent la technologie pour nous. L'avenir de l'IA dans cette région viendra d'elle. C'est précisément ce à quoi nous travaillons.
Comment voyez-vous CNTXT AI façonner l’écosystème de l’IA au Moyen-Orient au cours des cinq prochaines années ?
En favorisant une véritable préparation à l'IA. Nous intervenons, comprenons les besoins des entreprises et des gouvernements, élaborons les stratégies de données et d'IA, puis les aidons à concevoir, tester, déployer et faire évoluer leurs activités.
Si les données sont le nouveau pétrole, alors les données non structurées sont du pétrole brut — plein de potentiel mais inutile tant qu’elles ne sont pas traitées. C'est pourquoi nous avons créé CNTXT AI pour aider les organisations à nettoyer, structurer et activer leurs données. Car c'est là que commence la véritable transformation de l'IA.
De votre point de vue d’entrepreneur et d’investisseur, quels conseils donneriez-vous aux autres fondateurs qui créent des startups d’IA sur les marchés émergents ?
Commencez maintenant. Agissez vite. Échouez vite, apprenez plus vite et continuez à itérer.
Surtout, construisez pour des problèmes concrets. Restez proche du terrain : écoutez les utilisateurs, pas seulement le buzz. Sur les marchés émergents, la pertinence et l'adaptabilité sont essentielles.
Merci pour cette excellente interview, les lecteurs qui souhaitent en savoir plus devraient visiter CNTXT AI.












