تقديم العرض الوظيفي
أوفير كراكوفسكي، الرئيس التنفيذي والمؤسس المشارك لشركة Deepdub – سلسلة المقابلات

أوفير كراكوفسكي هو المؤسس المشارك والرئيس التنفيذي لشركة Deepdub. بخبرة تمتد لثلاثين عامًا في علوم الحاسوب والتعلم الآلي، لعب دورًا محوريًا في تأسيس وقيادة قسم التعلم الآلي والابتكار في سلاح الجو الإسرائيلي لمدة خمسة وعشرين عامًا.
ديب داب شركة دبلجة تعتمد على الذكاء الاصطناعي، وتستفيد من تقنيات التعلم العميق واستنساخ الصوت لتوفير ترجمة عالية الجودة وقابلة للتطوير للأفلام والتلفزيون والمحتوى الرقمي. تأسست الشركة عام ٢٠١٩، وتُمكّن مُنشئي المحتوى من الحفاظ على العروض الأصلية مع ترجمة الحوار بسلاسة إلى لغات متعددة. من خلال دمج توليف الكلام المدعوم بالذكاء الاصطناعي مع الإشراف اللغوي البشري، تُحسّن Deepdub إمكانية الوصول إلى المحتوى عالميًا، مما يُقلل من وقت وتكلفة الدبلجة التقليدية. وقد حظيت الشركة بتقدير كبير في هذا المجال لابتكاراتها، حيث حصلت على شراكات رئيسية وشهادات وتمويل لتوسيع نطاق تقنية الترجمة بالذكاء الاصطناعي في قطاع الترفيه.
ما الذي ألهمك لتأسيس Deepdub عام ٢٠١٩؟ هل كانت هناك لحظة أو تحدٍّ محدد قادك إلى إنشائه؟
لطالما كانت الدبلجة التقليدية هي المعيار السائد في هذا المجال لتوطين المحتوى، إلا أنها عملية مكلفة وتستغرق وقتًا طويلاً وتتطلب موارد كثيرة. ورغم وجود حلول صوتية مُولّدة بالذكاء الاصطناعي، إلا أنها افتقرت إلى العمق العاطفي اللازم لتجسيد أداء الممثل بدقة، مما يجعلها غير مناسبة للمحتوى عالي الجودة والمعقد.
وجدنا فرصةً لسد هذه الفجوة من خلال تطوير حلٍّ للترجمة معتمد على الذكاء الاصطناعي، يحافظ على الأصالة العاطفية للأداء الأصلي مع تحسين الكفاءة بشكل كبير. طوّرنا تقنيتنا الحصرية eTTS™ (تحويل النص إلى كلام عاطفي)، والتي تضمن أن تحمل الأصوات المُولّدة بالذكاء الاصطناعي نفس الثقل العاطفي والنبرة والدقة التي يحملها الممثلون البشريون.
نتصور عالمًا لم تعد فيه الحواجز اللغوية والثقافية عائقًا أمام الوصول إلى المحتوى العالمي. عند إنشاء منصتنا، أدركنا تحدي القيود اللغوية في قطاعات الترفيه والتعليم الإلكتروني وFAST وغيرها، وسعينا لإحداث ثورة في توطين المحتوى.
من أجل ضمان أن يوفر حل Deepdub أعلى جودة للتوطين والدبلجة للمحتوى المعقد على نطاق واسع، قررنا اتباع نهج هجين ودمج خبراء اللغة والصوت في العملية، بالاشتراك مع تقنية eTTS™ الخاصة بنا.
رؤيتنا هي إضفاء الطابع الديمقراطي على إنتاج الصوت، مما يجعله قابلاً للتوسع على نطاق واسع، ومتاحًا عالميًا، وشاملًا، وذو صلة ثقافية.
ما هي بعض أكبر التحديات التقنية والتجارية التي واجهتها عند إطلاق Deepdub، وكيف تغلبت عليها؟
كان اكتساب ثقة قطاع الترفيه عائقًا كبيرًا عند إطلاق Deepdub. فقد اعتمدت هوليوود على الدبلجة التقليدية لعقود، وكان التحول نحو الحلول القائمة على الذكاء الاصطناعي يتطلب إثبات قدرتنا على تقديم نتائج بجودة الاستوديوهات في قطاع غالبًا ما يشكك في الذكاء الاصطناعي.
لمعالجة هذه الشكوك، عززنا أولاً مصداقية أصواتنا المُولّدة بالذكاء الاصطناعي من خلال إنشاء بنك أصوات مرخص بالكامل. يتضمن هذا البنك عينات من أصوات بشرية حقيقية، مما يُحسّن بشكل كبير من طبيعية وتعبيرية إنتاجنا، وهو أمر بالغ الأهمية للقبول في هوليوود.
بعد ذلك، طوّرنا تقنياتٍ خاصة، مثل eTTS™، إلى جانب ميزاتٍ مثل التحكم في اللهجة. تضمن هذه التقنيات أن الأصوات المُولّدة بالذكاء الاصطناعي لا تقتصر على التقاط العمق العاطفي والفروق الدقيقة فحسب، بل تلتزم أيضًا بالأصالة الإقليمية اللازمة للدبلجة عالية الجودة.
كما أنشأنا فريقًا داخليًا متخصصًا لمرحلة ما بعد الإنتاج، يعمل عن كثب مع تقنيتنا. يُحسّن هذا الفريق مخرجات الذكاء الاصطناعي، لضمان جودة كل محتوى وتوافقه مع أعلى معايير الصناعة.
علاوةً على ذلك، وسّعنا نطاق نهجنا ليشمل شبكةً عالميةً من الخبراء البشريين، من مؤدّين صوتيين ولغويين ومخرجين من جميع أنحاء العالم. يُقدّم هؤلاء المحترفون رؤىً ثقافيةً قيّمةً وخبرةً إبداعيةً قيّمةً، مما يُعزّز الدقة الثقافية والصدى العاطفي لمحتوى المُدبلج لدينا.
يعمل فريق اللغويات لدينا جنبًا إلى جنب مع خبرائنا التقنيين والعالميين لضمان أن تكون اللغة المستخدمة مثالية للسياق الثقافي للجمهور المستهدف، مما يضمن بشكل أكبر الأصالة والامتثال للمعايير المحلية.
من خلال هذه الاستراتيجيات، التي تجمع بين التكنولوجيا المتقدمة وفريق قوي من الخبراء العالميين وفريق داخلي لمرحلة ما بعد الإنتاج، أثبتت Deepdub بنجاح لهوليوود وشركات الإنتاج المرموقة الأخرى حول العالم أن الذكاء الاصطناعي قادر على تحسين سير عمل الدبلجة التقليدية بشكل كبير. هذا التكامل لا يُبسّط الإنتاج فحسب، بل يُوسّع أيضًا إمكانيات توسيع السوق.
كيف تختلف تقنية الدبلجة المدعومة بالذكاء الاصطناعي في Deepdub عن طرق الدبلجة التقليدية؟
الدبلجة التقليدية عملية شاقة، وقد تستغرق شهورًا لكل مشروع، إذ تتطلب من الممثلين الصوتيين ومهندسي الصوت وفرق ما بعد الإنتاج إعادة إنتاج الحوار يدويًا بلغات مختلفة. يُحدث حلنا ثورة في هذه العملية من خلال توفير حل هجين متكامل يجمع بين التكنولوجيا والخبرة البشرية، مُدمجًا مباشرةً في سير عمل ما بعد الإنتاج، مما يُقلل تكاليف التوطين بنسبة تصل إلى 70% ومدة التنفيذ بنسبة تصل إلى 50%.
على عكس حلول الصوت الأخرى التي يتم إنشاؤها بواسطة الذكاء الاصطناعي، تسمح تقنية eTTS™ الخاصة بنا بمستوى من العمق العاطفي والأصالة الثقافية وتناسق الصوت والتي تكافح الأساليب التقليدية لتحقيقها على نطاق واسع.
هل يمكنك أن تشرح لنا النهج الهجين الذي يستخدمه Deepdub - كيف تعمل الذكاء الاصطناعي والخبرة البشرية معًا في عملية الدبلجة؟
يجمع نموذج Deepdub الهجين بين دقة الذكاء الاصطناعي وقابليته للتوسع، وبين إبداع الخبرة البشرية وحساسيتها الثقافية. يمزج نهجنا بين براعة الدبلجة التقليدية وتقنيات الذكاء الاصطناعي المتقدمة، مما يضمن احتفاظ المحتوى المحلي بالأصالة العاطفية وتأثير العمل الأصلي.
يعتمد حلنا على الذكاء الاصطناعي لأتمتة الجوانب الأساسية للتوطين، بينما يُحسّن الخبراء البشريون الفروقات العاطفية واللهجات والتفاصيل الثقافية. ندمج تقنيات eTTs™ الخاصة بنا وتقنية الصوت إلى الصوت (V2V) لتعزيز التعبير الطبيعي للأصوات المُولّدة بالذكاء الاصطناعي، مما يضمن تجسيدها لعمق وواقعية الأداء البشري. بهذه الطريقة، نضمن أن يكون كل محتوى في نسخته المحلية بنفس الأصالة والتأثير كما هو في النص الأصلي.
يلعب اللغويون ومحترفو الصوت دورًا محوريًا في هذه العملية، إذ يُحسّنون الدقة الثقافية للمحتوى المُولّد بالذكاء الاصطناعي. ومع استمرار العولمة في تشكيل مستقبل الترفيه، سيصبح دمج الذكاء الاصطناعي مع الإبداع البشري المعيار الذهبي لتوطين المحتوى.
بالإضافة إلى ذلك، يقوم برنامجنا الخاص بتعويض ممثلي الصوت المحترفين عندما يتم استخدام أصواتهم في الدبلجة بمساعدة الذكاء الاصطناعي، مما يضمن الاستخدام الأخلاقي لتكنولوجيا الذكاء الاصطناعي الصوتي.
كيف تعمل تقنية eTTS™ (تحويل النص إلى كلام عاطفي) المملوكة لشركة Deepdub على تحسين صحة الصوت والعمق العاطفي في المحتوى المدبلج؟
غالبًا ما تفتقر الأصوات التقليدية المُولّدة بالذكاء الاصطناعي إلى الإشارات العاطفية الدقيقة التي تجعل العروض مقنعة. لمعالجة هذا النقص، طورت Deepdub تقنية eTTS™ الخاصة بها، مستفيدة من نماذج الذكاء الاصطناعي والتعلم العميق لتوليد كلام لا يحتفظ فقط بالعمق العاطفي الكامل لأداء الممثل الأصلي، بل يدمج أيضًا الذكاء العاطفي البشري في العملية الآلية. تتيح هذه القدرة المتقدمة للذكاء الاصطناعي ضبط الأصوات المُركّبة بدقة لتعكس المشاعر المقصودة مثل الفرح أو الغضب أو الحزن، مما يتردد صداه بشكل أصيل لدى الجماهير. بالإضافة إلى ذلك، تتفوق eTTS™ في إنتاج تكرار صوتي عالي الدقة، ومحاكاة الفروق الدقيقة الطبيعية في الكلام البشري مثل درجة الصوت ونبرته وإيقاعه، وهو أمر ضروري لتقديم حوارات أصيلة وجذابة. كما تعزز هذه التقنية الحساسية الثقافية من خلال تكييف المخرجات بمهارة للتحكم في اللهجات، مما يضمن احترام المحتوى المُدبلج للفروق الثقافية الدقيقة ومواءمته معها، وبالتالي تعزيز جاذبيته وفعاليته العالمية.
من الانتقادات الشائعة للأصوات المُولّدة بالذكاء الاصطناعي أنها قد تبدو آلية. كيف يضمن Deepdub حفاظ الأصوات المُولّدة بالذكاء الاصطناعي على طبيعتها ودقتها العاطفية؟
تستخدم تقنيتنا الخاصة خوارزميات التعلم العميق والتعلم الآلي لتقديم حلول دبلجة عالية الجودة وقابلة للتطوير تحافظ على القصد الأصلي والأسلوب والفكاهة والفروق الدقيقة الثقافية.
إلى جانب تقنية eTTS™، تتضمن حزمة Deepdub المبتكرة ميزات مثل تحويل الصوت إلى صوت (V2V)، واستنساخ الصوت، والتحكم في اللهجات، وبنك المشاعر الصوتية، مما يتيح لفرق الإنتاج ضبط الأداء بدقة بما يتناسب مع رؤيتهم الإبداعية. تضمن هذه الميزات أن يحمل كل صوت العمق العاطفي والفروق الدقيقة اللازمة لسرد قصصي آسر وتجارب مستخدم مؤثرة.
على مدار السنوات القليلة الماضية، شهدنا نجاحًا متزايدًا لحلولنا في صناعة الإعلام والترفيه، لذلك قررنا مؤخرًا فتح الوصول إلى تعليقاتنا الصوتية المعتمدة في هوليوود للمطورين والمؤسسات ومنشئي المحتوى من خلال واجهة برمجة تطبيقات الصوت AIبفضل تقنية eTTS™ الخاصة بنا، تعمل واجهة برمجة التطبيقات على تمكين إنشاء صوت في الوقت الفعلي مع معلمات تخصيص متقدمة، بما في ذلك اللهجة والنغمة العاطفية والإيقاع وأسلوب الصوت.
الميزة الرئيسية لواجهة برمجة التطبيقات لدينا هي الإعدادات الصوتية المسبقة، المصممة بناءً على سنوات من الخبرة في هذا المجال مع احتياجات التعليق الصوتي الأكثر طلبًا. تُمكّن هذه الإعدادات المُعدّة مسبقًا المستخدمين من التكيف بسرعة مع أنواع المحتوى المختلفة دون الحاجة إلى إعدادات أو استكشاف يدوي مُكثّف. تشمل العروض المتاحة الأوصاف الصوتية والكتب الصوتية، والروايات الوثائقية أو الواقعية، والدراما والترفيه، ونقل الأخبار، والتعليق الرياضي، والتعليق الصوتي لأفلام الأنمي أو الرسوم المتحركة، والاستجابة الصوتية التفاعلية (IVR)، بالإضافة إلى المحتوى الترويجي والتجاري.
تتضمن الدبلجة بالذكاء الاصطناعي التكيف الثقافي واللغوي - كيف تضمن Deepdub أن حلول الدبلجة الخاصة بها مناسبة ثقافيًا ودقيقة؟
لا يقتصر التوطين على ترجمة الكلمات فحسب، بل يشمل أيضًا ترجمة المعنى والقصد والسياق الثقافي. يجمع نهج Deepdub الهجين بين الأتمتة المدعومة بالذكاء الاصطناعي والخبرة اللغوية البشرية، مما يضمن أن يعكس الحوار المترجم الفروق الثقافية والعاطفية للجمهور المستهدف. تعمل شبكتنا من خبراء التوطين جنبًا إلى جنب مع الذكاء الاصطناعي لضمان توافق المحتوى المدبلج مع اللهجات والتعبيرات والحساسيات الثقافية الإقليمية.
ما هي الابتكارات الأكثر إثارة التي تعمل عليها حاليًا لدفع دبلجة الذكاء الاصطناعي إلى المستوى التالي؟
من أبرز ابتكاراتنا القادمة الدبلجة المباشرة/البث المباشر، التي ستتيح الدبلجة الفورية للبث المباشر، كالأحداث الرياضية ووسائل الإعلام الإخبارية، مما يجعل الأحداث العالمية متاحةً فورًا. بدمج هذه الميزة مع ابتكارنا المميز الآخر، ميزة eTTs™، وهي تقنية خاصة تتيح إنتاج أصوات بشرية من النصوص على نطاق واسع، مع دعم عاطفي كامل وحقوق تجارية مدمجة، سنتمكن من تقديم دبلجة مباشرة عالية الجودة، أصيلة، مؤثرة، لا مثيل لها في السوق.
لنأخذ على سبيل المثال حفل افتتاح الألعاب الأولمبية أو أي حدث رياضي مباشر. فبينما تقدم هيئات البث المحلية عادةً التعليق بلغتها ولهجتها المحلية، ستتيح هذه التقنية للمشاهدين من جميع أنحاء العالم متابعة الحدث كاملاً بلغتهم الأم أثناء انطلاقه.
ستعمل الدبلجة المباشرة على إعادة تعريف كيفية تجربة الأحداث المباشرة في جميع أنحاء العالم، مما يضمن عدم كون اللغة عائقًا أبدًا.
واجهت الدبلجة المُولَّدة بالذكاء الاصطناعي انتقادات في بعض المشاريع مؤخرًا. ما هي العوامل الرئيسية وراء هذه الانتقادات برأيك؟
تنبع الانتقادات الرئيسية من مخاوف تتعلق بالأصالة والأخلاقيات والجودة. افتقرت بعض الأصوات المُولّدة بالذكاء الاصطناعي إلى الرنين العاطفي والدقة اللازمة لسرد قصصي غامر. في ديب دوب، عالجنا هذه المشكلة بتطوير أصوات ذكاء اصطناعي معبرة عاطفيًا، مع ضمان احتفاظها بروح الأداء الأصلي. وقد حققت ديب دوب رضا استثنائيًا تجاوز 70% من المشاهدين في جميع المجالات، بما في ذلك اختيار الممثلين الرائع، والحوار الواضح، والتزامن السلس، والإيقاع المثالي.
هناك مشكلة أخرى تتعلق بالاستخدام الأخلاقي لأصوات الذكاء الاصطناعي. ديب دوب شركة رائدة في مجال الدبلجة المسؤولة بالذكاء الاصطناعي، وهي أول من أطلق برنامجًا للملكية الفكرية في هذا المجال، يُكافئ مُمثلي الأصوات على أدائهم المُنتج باستخدام الذكاء الاصطناعي. نؤمن بأن الذكاء الاصطناعي يجب أن يُعزز الإبداع البشري، لا أن يحل محله، وينعكس هذا الالتزام في كل ما نُبدعه.
كيف ترى أن الدبلجة بالذكاء الاصطناعي ستغير صناعة الترفيه العالمية في السنوات الخمس إلى العشر المقبلة؟
في العقد المقبل، سوف تعمل الدبلجة المدعومة بالذكاء الاصطناعي على إضفاء الطابع الديمقراطي على المحتوى بشكل لم يسبق له مثيل، مما يجعل الأفلام والبرامج التلفزيونية والبث المباشر في متناول كل الجمهور، في كل مكان، بلغتهم الأم على الفور.
نحن نتخيل عالماً تتكامل فيه منصات البث والإذاعات مع الدبلجة المتعددة اللغات في الوقت الفعلي، مما يؤدي إلى إزالة الحواجز اللغوية والسماح للقصص بالانتقال إلى مسافة أبعد وأسرع مما سمحت به طرق التوطين التقليدية.
إلى جانب سهولة الوصول إلى اللغة، تُحسّن الدبلجة المدعومة بالذكاء الاصطناعي وصول المكفوفين وضعاف البصر إلى الوسائط. يعتمد الكثيرون على الأوصاف الصوتية لمتابعة المحتوى المرئي، وتتيح لهم الدبلجة التفاعل مع المحتوى بلغات أجنبية عندما لا تكون الترجمة متاحة. ومن خلال كسر الحواجز اللغوية والحسية، ستساعد الدبلجة المدعومة بالذكاء الاصطناعي على خلق تجربة ترفيهية أكثر شمولاً للجميع، وهو أمر بالغ الأهمية لا سيما مع دخول اللوائح الجديدة المتعلقة بسهولة الوصول إلى الوسائط حيز التنفيذ هذا العام في جميع أنحاء العالم.
ما هي بعض التحديات الكبرى التي لا تزال بحاجة إلى حل حتى تصبح الدبلجة بالذكاء الاصطناعي سائدة حقًا؟
تتمثل أكبر التحديات في الحفاظ على جودة فائقة على نطاق واسع، وضمان الدقة الثقافية واللغوية، ووضع مبادئ أخلاقية للأصوات المُولّدة بالذكاء الاصطناعي. ومع ذلك، وبعيدًا عن العقبات التقنية، يعتمد قبول الجمهور للدبلجة بالذكاء الاصطناعي على الثقة. يحتاج المشاهدون إلى الشعور بأن الأصوات المُولّدة بالذكاء الاصطناعي تحافظ على أصالة الأداء وعمقه العاطفي، بدلًا من أن تبدو مُصطنعة أو مُنفصلة.
لكي تُعتمد دبلجة الذكاء الاصطناعي بشكل كامل، يجب أن تكون عالية الجودة، تجمع بين البراعة البشرية والتكنولوجيا على نطاق واسع، وتُظهر احترامًا للنزاهة الإبداعية، والتنوع اللغوي، والسياق الثقافي. هذا يعني ضمان أن تبقى الأصوات مطابقة لنوايا الممثلين الأصليين، وتجنب الأخطاء التي قد تُنفّر الجمهور، ومعالجة المخاوف الأخلاقية المتعلقة بمخاطر التزييف العميق وملكية الأصوات.
مع تزايد انتشار الدبلجة بالذكاء الاصطناعي، يجب على مزودي التكنولوجيا تطبيق معايير صارمة لأصالة الصوت، والأمان، وحماية الملكية الفكرية. وتقود Deepdub جهودًا حثيثة في هذه المجالات، ضامنةً أن تُحسّن تقنية الصوت بالذكاء الاصطناعي سرد القصص عالميًا، مع احترام المساهمات الفنية والمهنية للمواهب البشرية. عندها فقط، سيتبنى الجمهور، ومنشئو المحتوى، وأصحاب المصلحة في هذا المجال، الدبلجة بالذكاء الاصطناعي كأداة موثوقة وقيّمة.
شكرا لك على المقابلة الرائعة ، القراء الذين يرغبون في معرفة المزيد يجب أن يزوروا ديب داب.












