Інтерв’ю
Мохаммад Абу Шейх, засновник та генеральний директор CNTXT AI – Серія інтерв’ю

Мохаммад Абу Шейх перетворює ландшафт штучного інтелекту на Близькому Сході та в Північній Африці, сприяючи переходу від пасивного споживання до суверенного інноваційного розвитку. Як генеральний директор CNTXT AI та засновник фонду штучного інтелекту вартістю 10 мільйонів доларів, він очолив три успішні виходи та забезпечив понад мільярд доларів фінансування. Його робота закладає основу для екосистеми штучного інтелекту, заснованої на мові, культурі та суверенітеті даних.
Ми бачили надлишок не використаного даних у цьому регіоні. Багато проблем зі масштабуванням штучного інтелекту виникли через відсутність готовності даних – що в кінцевому підсумку означало відсутність готовності штучного інтелекту. Саме тому ми створили CNTXT AI.
Спочатку ми розв’язували ті самі проблеми, з якими ми зіштовхнулися під час створення LocAI… Ми бачили ці виклики на власному досвіді, працюючи з AI71, TII та G42 (IIAI). Коли ми допомогли цим організаціям розв’язати ці проблеми, наша візія стала чіткішою, а бізнес просто продовжував розвиватися.
Ви відігравали ключову роль у створенні найбільшої арабської цифрової бібліотеки для навчання штучного інтелекту. Які були деякими з найбільших викликів при створенні цієї бібліотеки, і як ви їх подолали?
Якість була однією з найбільших проблем. Іншою була обмежена доступність високоякісних арабських даних в Інтернеті: арабська мова серйозно недо представлена. Лише мала частина арабськомовного контенту була оцифрована, а всього лише 3-5% всіх онлайн-контенту написані арабською. Це майже нічого. Ми подолали цю проблему, розгорнувши маркувальників даних, аннотаторів та вчених-даних для оцифрування, створення та кураторства даних самостійно.
CNTXT AI діє на перетині культури та обчислень. Як ви балансуєте інновації штучного інтелекту з метою створення культурно релевантних рішень для регіону Близького Сходу та Північної Африки?
Ми будуємо культурно засновані моделі з самого початку. Від інфраструктури до кінцевого продукту культура закладена з самого початку – це не те, що ми додаємо пізніше. Ми проектуємо, інновуємо та будуємо з урахуванням конкретних культур, діалектів та потреб регіону з самого початку. Арабська мова – це одна мова, але вона несе багато діалектів та культурних контекстів по всьому регіону, тому ми будуємо місцеві продукти для місцевих країн. І ми робимо це, працюючи з місцевими аннотаторами, людьми на землі, у їхніх країнах.
Ви також стали співзасновником LocAI та очолюєте фонд SMPL AI. Як ці підприємства доповнюють місію CNTXT AI?
LocAI – це прикладний шар – та частина, з якою люди фактично взаємодіють. Він знаходиться прямо над даними та інфраструктурою, створеними CNTXT AI. Саме це зробило його успішним: він перетворює основи штучного інтелекту, надані CNTXT AI, у реальні рішення, які люди можуть використовувати.
SMPL AI, з іншого боку, стосується повернення спільноті. Він зосереджується на інвестуванні в стартапи на ранній стадії та допомозі у створенні регіональної екосистеми штучного інтелекту. Ми ділимося інструментами та уроками, які ми здобули під час створення штучного інтелекту самостійно, щоб засновники могли розвиватися швидше та уникати загальних помилок.
Munsit називають найбільш точною арабською системою розпізнавання мови у світі. Що спонукало розробку цієї моделі, і чому зараз?
То, що спонукало розробку цієї моделі, було простим: необхідність.
Ми завжди будуємо з необхідності. Ми подивилися на ринок і побачили, що ландшафт був зрілий – урядові агентства та приватні клієнти всі запитували рішення цього типу.
Існуючі моделі просто не були здатні виконувати цю задачу. Більшість з них були створені на основі англійської технології, а потім адаптовані. Вони не були розроблені для арабської мови з самого початку, і точно не для тих конкретних проблем, які ми розв’язуємо.
Тому ми вирішили створити свою власну. Це арабська мова з самого початку – за проектуванням.
Дослідження, що лежить в основі Munsit, вводить підхід слабкого нагляду. Чи можете ви пояснити, що це означає, і чому воно було важливим для навчання арабської системи розпізнавання мови у масштабі?
Анотація дороговартісна. Тому нам довелося вийти за рамки традиційних методів, які залежать від великої кількості ручної транскрипції. Слабкий нагляд допоміг нам масштабуватися без необхідності ручної транскрипції кожного аудіофайлу – що особливо важливо для арабської мови, яка має обмежені дані та багато різних діалектів.
Замість використання професійно транскрибованого аудіо ми почали з 30 000 годин незначених арабських мовлення. Ми створили трубопровід анотації, який генерує, фільтрує та очищує найкращі з них за допомогою автоматичних перевірок. Це дало нам високоякісний набір даних на 15 000 годин – все без ручної транскрипції.
Цей підхід зробив можливим навчання нашої моделі з нуля, захопивши багатство розмовної арабської мови в реальних ситуаціях, швидко та ефективно. Без цього методу створення арабської системи розпізнавання мови у цьому масштабі зайняло б роки та мільйони ручної праці.
Munsit перевершив моделі від OpenAI, Microsoft та Meta по декількох показниках. Що це досягнення говорить про майбутнє арабських інновацій штучного інтелекту?
Майбутнє арабського штучного інтелекту знаходиться в наших руках; і саме це доводить це досягнення. Ми вже не можемо дозволити собі покладатися на технології, які ми не володіємо, або залежати від третіх сторін, які не пріоритезують наш регіон.
Munsit показує, що ми можемо створювати світовий рівень штучного інтелекту, з регіону, для регіону – використовуючи місцевий талант для розв’язання місцевих проблем. Це явний сигнал про те, що наступна хвиля арабських інновацій штучного інтелекту прийде зсередини.
Як ви бачите розвиток Munsit у майбутніх версіях, і які наступні рубежі для арабської голосової інженерії у CNTXT?
Ви просто повинні почекати та побачити. Що я можу сказати, так це те, що у нас є свіжа, нова серія арабських рішень штучного інтелекту на основі Munsit та інших моделей, які ми зараз будуємо у CNTXT AI. Це лише початок.
Ви часто говорите про важливість “суверенного штучного інтелекту”. Що це означає для вас, і чому це критично для регіону Перської затоки та ширшого регіону Близького Сходу та Північної Африки?
Для мене суверенний штучний інтелект означає повну власність та контроль над даними, інфраструктурою та моделями, які формують нашу майбутнє. Це критично важливо, оскільки нам потрібно володіти нашою власною долею, і це починається з даних.
Суверенітет даних – це все. Дані дорогоцінні, і нам потрібно забезпечити, щоб вони залишилися в наших руках.
Ми не можемо дозволити собі передати нашу майбутнє та сидіти пасивно, поки інші будують технології для нас. Майбутнє штучного інтелекту в цьому регіоні прийде з цього регіону. Саме цього ми працюємо.
Як ви бачите розвиток CNTXT AI у формуванні екосистеми штучного інтелекту на Близькому Сході протягом наступних п’яти років?
Здійснюючи справжню готовність штучного інтелекту. Ми йдемо туди, розуміємо, чого потребують компанії та уряди, будуємо стратегії даних та штучного інтелекту, а потім допомагаємо їм будувати, тестувати, розгортати та масштабувати.
Якщо дані – це нова нафта, то неструктуровані дані – це нафта, яка не пройшла рафінування – повна потенціалу, але безкорисна, поки не буде оброблена. Саме тому ми створили CNTXT AI, щоб допомогти організаціям очистити, структурувати та активувати свої дані. Адже саме там починається справжня трансформація штучного інтелекту.
З вашої точки зору як підприємця та інвестора, яку пораду ви дали б іншим засновникам, які створюють стартапи штучного інтелекту на ринках, що розвиваються?
Почніть зараз. Рухайтеся швидко. Зазнавайте невдач швидко, вчитеся швидше та продовжуйте ітерувати.
Найважливіше – будуйте для реальних проблем. Залишайтеся близько до землі – слухайте користувачів, а не просто гіп. На ринках, що розвиваються, актуальність та адаптивність є ключем.
Дякуємо за велике інтерв’ю. Читачам, які бажають дізнатися більше, слід відвідати CNTXT AI.












