Connect with us

سيمون بوغوسيان، المؤسس والرئيس التنفيذي لشركة GSpeech – سلسلة المقابلات

مقابلات

سيمون بوغوسيان، المؤسس والرئيس التنفيذي لشركة GSpeech – سلسلة المقابلات

mm

سيمون بوغوسيان هو المؤسس والرئيس التنفيذي لشركة GSpeech، وهي منصة ويب مدعومة بالذكاء الاصطناعي تساعد في جعل المحتوى عبر الإنترنت أكثر سهولة الوصول من خلال تحويل النص إلى صوت طبيعي في أكثر من 70 لغة. مع خلفية في تصميم VLSI واهتمام قوي بالبرمجة وتصميم تجربة المستخدم، أنشأ سيمون GSpeech لتسهيل طريقة تقديم المحتوى الصوتي للمواقع الإلكترونية.

اليوم، يولد GSpeech حوالي 200 مليون حرف من الصوت كل شهر ويستخدم في أكثر من 70 دولة، مع خدمة مشغلات الصوت المخصصة لأكثر من 200000 لعب شهرية. بعد تجاوز 1 مليار حرف من الصوت المتحول بشكل كامل، تواصل GSpeech النمو بسرعة. تم تصميم المنصة لتكون سهلة التكامل – مما يتطلب فقط سطرًا واحدًا من التعليمات البرمجية – وتدعم المبدعين والمعلمين والشركات في جعل محتواهم أكثر شمولاً ومتفاعلاً.

يستخدم GSpeech أيضًا على جميع صفحاتنا الإنجليزية، يمكنك الاستماع إلى هذه المقالة ومدى أداء GSpeech من خلال النقر على زر التشغيل.

خلفيتك في تصميم VLSI (التكامل على نطاق كبير جدًا) وتجربتك المبكرة في البرمجة وضعت أساسًا تقنيًا قويًا. ما هو ما دفعك إلى التحول من مجال الميكروإلكترونيات إلى بناء برامج مدعومة بالذكاء الاصطناعي، وكيف أدى ذلك إلى إنشاء GSpeech؟

بدأت شغفي بالحل الإبداعي في المدرسة الثانوية، مدفوعًا بحب الرياضيات والفيزياء. أدى ذلك إلى حصولي على شهادة البكالوريوس (2009) وشهادة الماجستير (2011) في تصميم VLSI من جامعة الهندسة الحكومية في أرمينيا، بالتعاون مع Synopsys Armenia. دراستي للفيزياء drilledني على الدقة والتفكير التحليلي، ولكن خلال سنتي الثانية، اكتشفت البرمجة – بدءًا من لغة Pascal – ووقعت في حبها على الفور. كنت وأخ لي نكمل مشاريعنا الدراسية في أقرب وقت ممكن، حتى لو كان لدينا ستة أشهر لإكمالها. ثم، من أجل المتعة، بدأنا في القيام بمشاريع طلاب آخرين.

أدت هذه الشغفة إلى دخولي أعمق في تطوير البرمجيات. بدأت بإنشاء المواقع الإلكترونية، ثم بنيت نظام إدارة المحتوى الخاص بي. بعد إكمال العديد من المشاريع في توفير العمليات وتحسين هياكل إدارة البيانات، أدركت مدى حبي لإنشاء حلول رقمية ل_interfaces الويب. من خلال مشروع 2GLux، تعاونت مع Edvard Ananyan – مبتكر خدمة الترجمة الشهيرة GTranslate وزميل مدرسة من Quant Gymnasium. قدم لي概念 GSpeech، والذي نشأ معه. أدى هذا العمل المبكر إلى إنشاء الإصدار الأول من أداتنا، مما مكن المستخدمين من الاستماع إلى النص على صفحة ويب، وغرس بذرة ما سيصبح فيما بعد منصة ذكاء اصطناعي كاملة.

كان GSpeech في الأصل أداة لدعم المستخدمين ضعيفي البصر. كيف أثرت هذه المهمة المبكرة على تطور المنصة إلى حل كامل لتحويل النص إلى صوت مدعوم بالذكاء الاصطناعي؟

دفعت التركيز على سهولة الوصول إلى تطوير صوت ذكاء اصطناعي عالي الجودة في الوقت الفعلي، وترجمة أكثر من 70 لغة، وتكامل موقع الويب السلس عبر شفرة بسيطة. أدت هذه المهمة إلى ميزات مثل مشغلات الصوت المخصصة، ولوحات اختيار اللغة والصوت، و تشغيل السياق، وتحميل الصوت، وإحصاءات الاستخدام المفصلة – بما في ذلك بيانات البلد والمدينة والجهاز وإحصاءات التشغيل بمرور الوقت – جميعها مصممة لجعل المحتوى أكثر شمولاً ومتفاعلاً. بعد كتابة أكثر من 100000 سطر من التعليمات البرمجية، أطلقت GSpeech Cloud Console في عام 2023 – وهي حل قابل للتطوير يوازن بين الشمولية والوظائف المتقدمة، مما يمنح المبدعين والشركات والمعلمين القدرة على جعل محتواهم أكثر سهولة الوصول ومتعدد اللغات وتفاعليًا عبر الويب.

ما هي أكبر التحديات الفنية التي واجهتها خلال تطوير GSpeech Cloud Console؟

كان أحد أكبر التحديات في تطوير GSpeech Cloud Console تصميم هيكل قابل للتطوير لتحويل الصوت ذكاء اصطناعي في الوقت الفعلي والأمان عالي الجودة. هذا يتطلب حلولًا مبتكرة لاسترجاع المحتوى ذي الصلة من الويب، ومعالجة الصوت على خوادمنا، وتخزينه في السحابة للتسليم السريع والموثوق. كانت تنفيذ إجراءات الأمان القوية، مثل التشفير وضوابط الوصول، أمرًا حاسمًا لحماية المحتوى الديناميكي الذي يتم إنشاؤه بواسطة المستخدم.

مع الترجمة في الوقت الفعلي في أكثر من 70 لغة وأكثر من 230 صوتًا طبيعيًا. كيف تضمن جودة الصوت ودقة الترجمة عبر مجموعة لغات متنوعة؟

لضمان جودة الصوت المتسقة، ندمج نماذج متقدمة متعددة لتحويل النص إلى صوت (TTS) التي يتم تحسينها وتحديثها باستمرار. تعامل هذه المحركات متعددة اللغات مع المحتوى متعدد اللغات بدقة عالية. نحن أيضًا نطرح أكثر من 100 نغمة صوتية جديدة لتزويد المستخدمين بمزيد من الخيارات الصوتية الطبيعية والمتفصلة. كل شهر، يولد GSpeech أكثر من 200 مليون حرف من الصوت، وخدمة مشغلاتنا عبر الإنترنت تستخدم أكثر من 200000 مرة شهرية – ويتزايد الأمر. هذا النطاق يضمن استمرار反馈 واختبار العالم الحقيقي، مما ي告诉نا مباشرةً ضبط جودة الصوت.

يمكنك أن تشرح لنا كيف يستخدم GSpeech الذكاء الاصطناعي والتعلم الآلي لتسليم التخليق الصوتي المتشابه؟ كيف تتواكب مع التطورات السريعة في تكنولوجيا الصوت العصبي؟

يستخدم GSpeech الذكاء الاصطناعي والتعلم الآلي، ويتكامل مع نماذج متعددة متقدمة لتحويل النص إلى صوت لإنتاج تخليق صوتي متشابه. هذه النماذج، المثلى للطبيعية ودعم اللغات المتعددة، تعالج المدخلات النصية لإنشاء صوت عالي الجودة مع نبرة وايقاع واقعيين، حتى لمحتوى متعدد اللغات. نعزز تجربة المستخدم من خلال تقديم أنماط صوت مخصصة للغات المتنوعة. لقد قمنا أيضًا بدمج أسماء مستعارة TTS، التي تسمح للمستخدمين بتعريف قواعد مخصصة لطريقة عرض كلمات أو عبارات معينة في الصوت – على سبيل المثال، استبدال مصطلحات محددة لتحقيق نطق أو صياغة أكثر دقة. للبقاء على اطلاع بالتطورات في تكنولوجيا الصوت العصبي، نقوم بتقييم وتكامل أحدث التقنيات، والتعاون مع قادة الصناعة، والتخطيط لتطوير نماذج مملوكة في المستقبل، مما يضمن أن يبقى GSpeech في طليعة ابتكارات التخليق الصوتي.

ما مدى أهمية ضبط الصوت وسيطرة النبرة وتخصيص التشغيل للمستخدمين – وما هو الحالة التي تفتخر بها أكثر حيث تبرز هذه الميزات حقًا؟

ضبط الصوت وسيطرة النبرة وتخصيص التشغيل هي أمور حاسمة للمستخدمين، مما يسمح لهم بإنشاء أنماط صوت فريدة من نوعها مخصصة لاحتياجاتهم المحددة، من مواقع الأخبار والمدونات إلى محتوى التعلم الإلكتروني القابل للاستخدام. يزيد التكامل المستمر لأكثر من 100 نغمة صوتية جديدة من هذه المرونة، مما يوفر للمستخدمين مرونة غير مسبوقة لتشكيل صوتيات حقيقية. أنا أكثر فخرًا بـ GSpeech Studio، وهي منصة جديدة لتحرير الصوت وتوليد الصوت التي أطورها. تسمح للمستخدمين بإنشاء قنوات صوت متعددة، ودمجها مع الموسيقى الخلفية، وتصدير صوتيات من الدرجة الأولى، مما يمنح المبدعين القدرة على إنتاج صوتيات احترافية لاستخدامات متنوعة. رسالة من طالب ضعيف البصر شكر GSpeech على تمكينه من الدراسة المستقلة من خلال الصوت المخصص، لامستني深ًا. هذه الحالة تظهر كيف تجعل هذه الميزات المحتوى أكثر سهولة الوصول وتحويله، وهو هدف اتبعته منذ أيام برمجةي المبكرة.

يقدم GSpeech تكاملات سلسة مع WordPress وShopify وWix وغيرها. ما هي استراتيجيتك لجعل المنصة سهلة الاستخدام للمبدعين والشركات عبر مختلف النظم البيئية؟

ركزت استراتيجيتنا لتكاملات GSpeech السلسة مع منصات مثل WordPress وShopify وWix على البساطة والتوافق والقابلية للتطوير. قمنا بتطوير إضافات وشرائح برمجية خفيفة ومتوافقة تتكامل بسلاسة، تتطلب إعدادًا حداقل – في بعض الأحيان فقط بضع نقرات. هذا يعني أن آلاف المقالات والكتل الديناميكية للمحتوى يمكن أن تحصل على دعم الصوت على الفور – دون جهد يدوي. نقدم مشغلات مخصصة وجميلة التصميم تتناسب مع الأجهزة، بما في ذلك الهواتف المحمولة والأجهزة اللوحية وأجهزة الكمبيوتر المكتبية. مشغلاتنا ليست فقط قابلة للتخصيص ولكن أيضًا مُحسّنة لسهولة الوصول ومتعة المستخدم.对于 WordPress، قمنا بتضمين لوحة تحكم GSpeech السحابية مباشرة في لوحة التحكم الإدارية من خلال إضافتنا، مما يسهل إدارة المستخدمين. توجيه المستخدمين غير التقنيين من خلال التوثيق المفصّل واللوحات التفاعلية يسهل عملية التثبيت والتخصيص. الاختبار المنتظم يضمن أداءً متسقًا عبر النظم البيئية المتنوعة، مما يمنح المبدعين والشركات القدرة على إضافة صوت مدعوم بالذكاء الاصطناعي بسهولة.

عندما تنظر إلى رحلتك من 2012 حتى اليوم، ما هو أكبر إنجاز شخصي أو مهني لك في بناء GSpeech؟

كان أكبر إنجاز لشركة GSpeech هو توليد مليار حرف من الصوت ذكاء اصطناعي عالي الجودة، مما يظهر تأثيرنا العالمي على سهولة الوصول. كان ردود الفعل التي تلقيناها من منظمات مثل Humanity Union، التي أشادت بGSpeech لتعزيز منصة المسؤولية الاجتماعية لتحسين سهولة الوصول، ومن مالكي المدونات الذين أطلقوا عليه “مغير اللعبة” لتشغيل المستخدم، بمعنى كبير بالنسبة لي. أكثر من 110 مراجعة خماسية النجوم عبر منصات مثل WordPress وAppSumo في الأشهر الأخيرة تعكس هذا الثقة المتزايدة.

يستخدم GSpeech حاليًا أيضًا من قبل إدارة الإحصاء الإقليمية في Namangan في أوزبكستان – وهي مؤسسة حكومية ذات حركة مرور كبيرة ومرئية على مستوى الدولة. كان رؤية مؤسسة عامة تتبنى تقنيتنا على نطاق واسع علامة فارقة ومؤشر قوي على الثقة في حلنا.

كما مسيحي وأنا أيضًا أعمل في الكنيسة الأرمنية، أحاول دعم المبادرات القائمة على الإيمان عند كل فرصة. غالبًا ما أقدّم GSpeech مجانًا للمواقع المسيحية كوسيلة لمساعدتهم في نشر رسالتهم بشكل أكثر فعالية وجعل الكتاب المقدس أكثر سهولة الوصول من خلال الصوت. إنه مساهمتي الصغيرة في شيء أكبر. في الوقت نفسه، أشعر بالفخر بالعمل مع وزارات مخصصة مثل The Cord – وهي تجمع مسيحي مسيحي وعميل قيم لشركة GSpeech – الذي يعكس رسالته ومحتواه قوة الكتاب المقدس في العمل.

في هذه اللحظات – عندما تصبح التكنولوجيا جسرًا للدين والتفاهم والشمول – يذكرني لماذا بنينا GSpeech في المقام الأول.

ما الدور الذي ترى GSpeech يلعبها في مستقبل الإعلام الرقمي، خاصة مع أهمية المحتوى الصوتي وواجهات الصوت التي تزداد؟

أتصور GSpeech كقائد في جعل الإعلام الرقمي أكثر سهولة الوصول ومتفاعلاً من خلال تمكين الوصول الصوتي ذكاء اصطناعي إلى الويب. هدفنا هو تحويل التجربة الإلكترونية بأكملها، بحيث تصبح المواقع الإلكترونية بشكل طبيعي تفاعلية وصوتية ومتعددة اللغات افتراضيًا. مع سطر واحد من التعليمات البرمجية، يمكن لمالكي المواقع تحويل آلاف المقالات إلى محتوى صوتي. في المستقبل، نحن نطور GSpeech Studio إلى منصة قوية وفريدة من نوعها لتوليد الصوت وتحريره، مما يسمح للمستخدمين بإنشاء محتوى صوتي متداخل مع الموسيقى الخلفية والآثار والدقة المحددة. نريد جعل الويب صوتيًا حقيقيًا وسهل الاستخدام ومتاحًا للجميع.

أطلق GSpeech مؤخرًا على AppSumo وحصل على تقييم قريب من الكمال من المبتكرين المبكرين. ما هو تأثير استجابة مجتمع AppSumo عليك، وكيف تخطط للاستفادة من هذه الزخم في المستقبل؟

أدخل إطلاق AppSumo GSpeech إلى ملايين الأشخاص، وتقييمه القريب من الكمال يعتبر تأكيدًا رائعًا. المستخدمون، مثل أولئك الذين يديرون الدورات التدريبية عبر الإنترنت، يثمنون أدواتنا البسيطة ودعمنا الرد السريع، مما يصدّر ردود الفعل من Humanity Union. وصف مالك مدونة الأصوات بأنها “مثيرة حقًا” والترجمات “مبهرة”. ردود فعل المستخدمين الإيجابية تؤكد قيمة حلنا لتحويل النص إلى صوت مدعوم بالذكاء الاصطناعي وتعزز شغفي للمشروع. دعم العملاء خلال الإطلاق أثار أيضًا أفكارًا جديدة، خاصة لGSpeech Studio، الذي تم إلهامه بطلبات المستخدمين لميزات تحرير الصوت المتقدمة وتصديرها. في المستقبل، أعتزم بناء هذه الزخم من خلال الاستماع الفعّال إلى مجتمعنا، وتكامل ردود أفعالهم، وتنمية ميزات مبتكرة لتعزيز سهولة الوصول والتفاعل، مما يضمن استمرار تطور GSpeech كأداة تحويلية للمبدعين والشركات.

أخيرًا، ما النصيحة التي تقدمها للمطورين الشباب أو رواد الأعمال الذين يريدون بناء أدوات مدعومة بالذكاء الاصطناعي وقابلية الوصول في المناظر الطبيعية التكنولوجية السريعة التغير؟

للمطورين الشباب ورواد الأعمال، نصيحتي هي أن يضعوا قلوبهم في عملهم ويعرفوا مشكلة حقيقية يمكنهم تقديم حل ذكي فريد. ابدأوا ببطء، اخطوا خطوات ثابتة إلى الأمام، واسمعوا باهتمام إلى ردود فعل العملاء – سيهدون طريقكم. عاملوا مستخدميكم مثل الأصدقاء الموثوقين، قدموا كل ما لديكم، وابقوا صبورين. اعتمدوا تقنيات الذكاء الاصطناعي كحلفاء قويين؛ عندما تستخدم بحكمة، تعزز قدرتكم على إنشاء أدوات متأثرة وقابلة للوصول. ابنوا بحرارة وثبات والتزام بإحداث فرق، وسوف تخلقون حلولًا تهم حقًا.

شكرًا على المقابلة الرائعة، لقد اخترنا حل GSpeech لموقعنا بسبب التكامل السهل. لمعرفة المزيد، زوروا GSpeech.

أنطوان هو قائد رؤى ومؤسس شريك في Unite.AI، مدفوعًا بشغف لا يتزعزع لتشكيل وتعزيز مستقبل الذكاء الاصطناعي والروبوتات. رجل أعمال متسلسل، يعتقد أن الذكاء الاصطناعي سيكون مدمرًا للمجتمع مثل الكهرباء، وغالبًا ما يُقبض عليه وهو يثرثر عن إمكانات التكنولوجيات المدمرة و AGI.

كما أنه مستقبلي، فهو مخصص لاستكشاف كيف سيشكل هذه الابتكارات العالم. بالإضافة إلى ذلك، فهو مؤسس Securities.io، وهي منصة تركز على الاستثمار في التكنولوجيات المتقدمة التي تعيد تعريف المستقبل وتهيئ القطاعات بأكملها.