์ธํฐ๋ทฐ
Mohammad Abu Sheikh, CNTXT AI์ ์ฐฝ๋ฆฝ์ ๋ฐ CEO – ์ธํฐ๋ทฐ ์๋ฆฌ์ฆ

Mohammad Abu Sheikh는 MENA 지역에서 AI 풍경을変革시키고 있으며, 수동적인 소비에서 주권적인 혁신으로의 전환을 주도하고 있습니다. CNTXT AI의 CEO이자 1,000만 달러의 AI 펀드의 창립자로서, 그는 세 번의 성공적인 출자를 이끌었고 10억 달러 이상의 자금을 확보했습니다. 그의 작업은 언어, 문화, 데이터 주권에 뿌리를 둔 AI 생태계의 기초를 마련하고 있습니다.
CNTXT AI는 클라우드 인프라, 산업 소프트웨어, 로봇 솔루션을 제공하여 조직이 운영을 현대화하고 중동 및 북아프리카 전역에서 데이터 기반의 통찰력을 해방시키는 디지털 변환 회사입니다.
당신은 CNTXT AI를 시작하도록 무엇이 영감을 주었나요? 그리고 아랍어권 세계에서 주권적인 AI에 대한 비전은 어떻게 시작되었습니다?
우리는 이 지역에서 사용되지 않는 데이터의 풍부함을 보았습니다. 많은 문제는 데이터 준비 부족으로 인해 궁극적으로 AI 준비 부족으로 이어졌습니다. 그래서 우리는 CNTXT AI를 시작했습니다.
처음에는 LocAI를 구축하면서 직면한 동일한 문제를 해결했습니다… 우리는 AI71, TII 및 G42 (IIAI)와 협력하면서 이러한 문제를 직접 해결했습니다. 이러한 문제를 해결하는 동안 비전이 명확해졌고 비즈니스도 계속 성장했습니다.
당신은 AI 훈련을 위한 가장 큰 아랍어 디지털 라이브러리를 구축하는 데 핵심적인 역할을 했습니다. 그 일을 하는 데 가장 큰 도전은 무엇이었으며, 어떻게 그것을 극복했나요?
품질은 가장 큰 도전 중 하나였습니다. 또 다른 도전은 아랍어 데이터의 제한된 가용성입니다: 아랍어는 심각하게 대표되지 않습니다. 아랍어 콘텐츠의 작은 부분만 디지털화되었으며, 온라인 콘텐츠의 3-5%만 아랍어입니다. 그것은 거의 아무것도 없습니다. 우리는 데이터 레이블러, 어노테이터, 데이터 과학자를 배치하여 데이터를 스스로 디지털화, 생성 및 큐레이션함으로써 이 문제를 극복했습니다.
CNTXT AI는 문화와 계산의 교차점에서 운영됩니다. MENA 지역을 위한 문화적으로 관련된 솔루션을 구축하는 목표와 최신 AI 혁신을 균형적으로 유지하는 방법은 무엇인가?
우리는 지면부터 문화적으로 기반한 모델을 구축합니다. 인프라에서 최종 제품까지, 문화는 처음부터 내장됩니다. 그것은 나중에 추가하는 것이 아닙니다. 우리는 특정 문화, 방언, 필요를 고려하여 설계, 혁신, 구축합니다. 아랍어는 하나의 언어이지만, 이 지역 전역에서 많은 방언과 문화적 맥락을 가지고 있습니다. 그래서 우리는 현지 국가에서 현지 어노테이터, 현지에서 일하는 사람들과 협력하여 현지 제품을 구축합니다.
당신은 또한 LocAI를 공동 창립하고 SMPL AI 펀드를 이끌고 있습니다. 이러한 벤처는 CNTXT AI의 미션을 어떻게 보완합니까?
LocAI는 응용 프로그램 계층입니다. 사람들이 실제로 상호 작용하는 부분입니다. 그것은 CNTXT AI가 구축한 데이터와 인프라 바로 위에 위치합니다. 그것이 성공한 이유입니다. 그것은 CNTXT AI가 제공하는 AI 기초를 실제 사용할 수 있는 솔루션으로 변환합니다.
SMPL AI는另一方面, 공동체에 다시 돌려주는 것입니다. 초기 스타트업에 투자하고 지역 AI 생태계를 구축하는 데 중점을 두고 있습니다. 우리는 스스로 AI를 구축하면서 배운 도구와 교훈을 공유하여 창립자가 더 빠르게 성장하고 일반적인 함정을 피할 수 있도록 합니다.
Munsit는 세계에서 가장 정확한 아랍어 음성 인식 모델로 불립니다. 이 모델의 개발은 무엇으로 驅動되었으며, 왜 지금인가?
이 모델의 개발을 驅動한 것은 간단했습니다. 필요입니다.
우리는 항상 필요성으로부터 구축합니다. 우리는 시장에 눈을 돌리고 풍경이 성숙했다는 것을 보았습니다. 정부 기관과 민간 클라이언트 모두 이러한 솔루션을 요청하고 있었습니다.
기존 모델은 작업에 충분하지 않았습니다. 대부분은 영어 기술을 기반으로 하여 적응되었습니다. 아랍어를 위한 것이 아니며, 특히 우리가 해결하는 문제에 대한 것이 아닙니다.
그래서 우리는 우리 자신의 것을 구축하기로 결정했습니다. 그것은 아랍어부터 설계되었습니다.
Munsit을 위한 연구는 약한 감독 학습 접근 방식을 도입합니다. 그것이 무엇이며, 아랍어 ASR를 대규모로 훈련하는 데 왜 필수적인가요?
어노테이션은 비용이 많이 듭니다. 그래서 우리는 수동 전사에 의존하는 전통적인 방법을 넘어섰습니다. 약한 감독 학습은 우리가 모든 오디오 파일을 수동으로 레이블링하지 않고도 확장할 수 있도록 도와주었습니다. 이것은 특히 데이터와 방언이 제한된 아랍어와 같은 언어에 중요합니다.
전문적으로 전사된 오디오 대신, 우리는 30,000시간의 레이블이 없는 아랍어 음성을 시작했습니다. 우리는 자동 체크를 사용하여 최고의 것을 생성, 필터링 및 청소하는 어노테이션 파이프라인을 구축했습니다. 이것은 수동 전사 없이 높은 품질의 15,000시간 데이터 세트를 제공했습니다.
이 접근 방식은 실제 상황에서 말하는 아랍어의 풍부함을 포착하여 빠르고 비용 효율적으로 모델을 훈련할 수 있었습니다. 이 방법 없이, 아랍어 ASR 시스템을 이 크기로 구축하는 것은 수년이 걸렸을 것입니다. 수백만 달러의 수동 노력이 필요했습니다.
Munsit은 여러 벤치마크에서 OpenAI, Microsoft, Meta의 모델을 능가했습니다. 이것은 아랍어 AI 혁신의 미래에 대해 무엇을 말해줍니까?
아랍어 AI의 미래는 우리 손에 있습니다. 그리고 이 성과는 정확히 그것을 증명합니다. 우리는 더 이상 우리가 소유하지도 않고, 우리 지역을 우선순위로하지도 않는 제3자의 기술에 의존할 수 없습니다.
Munsit은 지역에서 지역을 위한 세계 수준의 AI를 구축할 수 있음을 보여줍니다. 지역의 문제를 해결하기 위해 지역의 인재를 사용합니다. 이것은 아랍어 AI 혁신의 다음 물결이 내부에서 올 것이라는 명확한 신호입니다.
Munsit은 어떻게 진화할 것인지, CNTXT에서 아랍어 음성 AI의 다음 전선은 무엇인가?
그것은 기다려야 할 것입니다. 내가 말할 수 있는 것은, Munsit과 현재 CNTXT AI에서 구축 중인 다른 모델을 기반으로 하는 새로운 아랍어 첫 번째 AI 솔루션 세트가 곧 출시될 것이라는 것입니다. 이것은 시작에 불과합니다.
당신은 종종 “주권적인 AI”의 중요성에 대해 말합니다. 그것은 당신에게 무엇을 의미하며, 왜 걸프 및 더 넓은 MENA 지역에서 그것이 중요합니까?
나에게 주권적인 AI는 데이터, 인프라, 우리의 미래를 형성하는 모델에 대한 완전한 소유권과 통제를 의미합니다. 그것은 우리가 우리의 운명을 소유해야 하기 때문에 중요합니다. 그리고 그것은 데이터에서 시작됩니다.
데이터 주권은 모든 것입니다. 데이터는 소중하며, 우리가 그것이 우리 손에 머무르는 것을 đảm장해야 합니다.
우리는 우리의 미래를 건네주고 다른 사람들이 우리를 위해 기술을 구축하는 동안闲暇に 앉아 있을 수 없습니다. 이 지역의 AI 미래는 이 지역에서 올 것입니다. 그것이 우리가 일하는 것입니다.
5년 내에 CNTXT AI가 중동의 AI 생태계를 어떻게 형성할 것으로 보십니까?
진정한 AI 준비를 가능하게 함으로써. 우리는 들어가서 회사와 정부가 무엇을 필요로 하는지 이해하고, 데이터 및 AI 전략을 구축한 다음 구축, 테스트, 배포 및 확장에 도움을 줍니다.
데이터가 새로운 석유라면, 구조화되지 않은 데이터는 정제되지 않은 석유와 같습니다. 가능성은 많지만 처리할 때까지는 쓸모가 없습니다. 그것이 왜 우리는 데이터를 청소, 구조화 및 활성화하는 데 도움을 주기 위해 CNTXT AI를 구축했기 때문입니다. 실제 AI 변革이 시작되는 곳이기 때문입니다.
창업자이자 투자자로서의 ваш의 관점에서, 새로운 시장에서 AI 스타트업을 구축하는 다른 창립자들에게 어떤 조언을 드리겠습니까?
지금 시작하세요. 빠르게 움직이세요. 빠르게 실패하고, 더 빠르게 배우고, 계속 반복하세요.
가장 중요한 것은 실제 문제를 해결하세요. 땅에 가까이 머물러서 사용자에게, 소문에 대한 것이 아니라 듣세요. 새로운 시장에서는 관련성과 적응성이 핵심입니다.
좋은 인터뷰에 감사합니다. 더 많은 정보를 배우고 싶은 독자는 CNTXT AI를 방문해야 합니다.












