الذكاء الاصطناعي
كيف يتم تحسين معالجة اللغة من خلال نموذج BERT المفتوح المصدر من جوجل

تمثل التمثيلات الاتجاهية ثنائية الاتجاه من المحولات، والمعروفة باسم BERT، نموذجًا للتدريب قد حسّن بشكل كبير من كفاءة وفعالية نماذج معالجة اللغة الطبيعية. الآن بعد أن جعلت جوجل نماذج BERT مفتوحة المصدر، يسمح ذلك بتحسين نماذج معالجة اللغة الطبيعية عبر جميع القطاعات. في هذه المقالة، نلقي نظرة على كيفية جعل BERT من معالجة اللغة الطبيعية واحدة من أكثر الحلول الذكية قوة وفائدة في عالم اليوم.
تطبيق نماذج BERT على البحث
يتميز محرك البحث من جوجل بسمعته العالمية لتقديم محتوى ذي صلة وقد جعل هذا البرنامج لمعالجة اللغة الطبيعية مفتوح المصدر للعالم.
يتزايد أهمية قدرة النظام على قراءة وتفسير اللغة الطبيعية بشكل متزايد مع إنتاج العالم لكميات هائلة من البيانات. مكتبة جوجل لمعاني الكلمات والعبارات والقدرة على تقديم محتوى ذي صلة هي مفتوحة المصدر. بالإضافة إلى معالجة اللغة الطبيعية، يمكن لنموذج BERT استخراج المعلومات من كميات كبيرة من البيانات غير المهيكلة ويمكن تطبيقه لإنشاء واجهات بحث ل أي مكتبة. في هذه المقالة، سنرى كيف يمكن تطبيق هذه التكنولوجيا في قطاع الطاقة.
BERT (تمثيلات الاتجاهين ثنائية الاتجاه من المحولات) هو نهج للتدريب المسبق提出了 من قبل فريق جوجل آي لغة، تم تطويره لتحقيق نهج للتدريب المسبق من أجل التغلب على مشكلة شائعة في نماذج معالجة اللغة الطبيعية المبكرة: عدم وجود بيانات كافية للتدريب.
دعونا نُطيل القول، دون الدخول في تفاصيل كثيرة:
تدريب النماذج
تتطلب مهام معالجة اللغة الطبيعية منخفضة المستوى (مثل تحديد الكيانات المسمى، تقسيم الموضوع) وعالية المستوى (مثل تحليل المشاعر، التعرف على الكلام) مجموعات بيانات مُحددة للمهام. في حين أن هذه المجموعات صعبة الحصول عليها ومكلفة في التجميع، تلعب مجموعات البيانات المُحددة دورًا حاسمًا في أداء نماذج الشبكات العصبية الضحلة والعميقة. يمكن تحقيق نتائج استدلال دقيقة فقط عند توفر ملايين أو حتى مليارات من الأمثلة المُدرجة للتدريب. وكان ذلك مشكلة جعلت العديد من مهام معالجة اللغة الطبيعية غير قابلة لل접근. حتى تم تطوير BERT.
BERT هو نموذج تمثيل لغة عام، يتم تدريبه على مجموعات كبيرة من النصوص غير المُحددة. عندما يتعرض النموذج إلى كميات كبيرة من المحتوى النصي، يتعلم لفهم السياق والعلاقات بين الكلمات في الجملة. على عكس نماذج التعلم السابقة التي تمثلت فقط بالمعنى على مستوى الكلمة (البنك سي意味ى نفس الشيء في “حساب بنكي” و “البنك العشبي”)، يهتم BERT بالسياق. أي ما يأتي قبل وبعد الكلمة في الجملة. أظهر السياق أن تكون قدرة مفقودة رئيسية في نماذج معالجة اللغة الطبيعية، مع تأثير مباشر على أداء النموذج. يُعرف تصميم نموذج يهتم بالسياق مثل BERT بأنه بداية عصر جديد في معالجة اللغة الطبيعية.
تدريب BERT على كميات كبيرة من المحتوى النصي هو تقنية تعرف باسم التدريب المسبق. هذا يعني أن أوزان النموذج يتم تعديلها لمهام فهم النص العام، ويمكن بناء نماذج أكثر دقة على أساسها. أثبت المؤلفون تفوق这种 التقنية عندما طبقوا نماذج مبنية على BERT على 11 مهمة لمعالجة اللغة الطبيعية وحققوا نتائج على مستوى الدولة.
نماذج مسبقة التدريب
الأفضل من ذلك: نماذج BERT المسبقة التدريب مفتوحة المصدر ومتاحة للجمهور. هذا يعني أن أي شخص يمكنه التعامل مع مهام معالجة اللغة الطبيعية وبناء نماذجه على أساس BERT. لا شيء يمكن أن يتفوق على ذلك، أليس كذلك؟ انتظر: هذا يعني أيضًا أن نماذج معالجة اللغة الطبيعية يمكن الآن تدريبها (تحسينها) على مجموعات بيانات أصغر، دون الحاجة إلى التدريب من البداية. بداية عصر جديد، في الواقع.
تساعد هذه النماذج المسبقة التدريب الشركات على تقليل التكاليف والوقت اللازمين لتنفيذ نماذج معالجة اللغة الطبيعية للاستخدام الداخلي أو الخارجي. يؤكد فعالية نماذج معالجة اللغة الطبيعية المدربة جيدًا مايكل أليكسيس، الرئيس التنفيذي لشركة بناء ثقافة الفريق الافتراضي، teambuilding.com.
“أعلى فائدة لمعالجة اللغة الطبيعية هي الاستدلال والобработة القابلة للتطوير والموحدة للمعلومات.”مايكل أليكسيس، الرئيس التنفيذي لشركة teambuilding.com
يشرح مايكل كيف يمكن تطبيق معالجة اللغة الطبيعية على برامج بناء الثقافة مثل كسر الجليد أو الاستبيانات. يمكن للشركة الحصول على رؤى قيمة حول كيفية سير ثقافة الشركة من خلال تحليل استجابات الموظفين. يتم تحقيق ذلك ليس فقط من خلال تحليل النص ولكن أيضًا من خلال تحليل التعليقات على النص. في الأساس، يقرأ النموذج “بين السطور” لاستخلاص الاستنتاجات حول العاطفة والشعور والاتجاه العام. يمكن لبرت مساعدة في مثل هذه الحالات من خلال التدريب المسبق للنماذج مع مجموعة من المؤشرات التي يمكنه أن يعتمد عليها لاكتشاف دقائق اللغة وتقديم رؤى أكثر دقة.
تحسين الاستفسارات
أصبحت قدرة النموذج على نمذجة السياق تجعل BERT بطلًا لمعالجة اللغة الطبيعية وثورة في بحث جوجل نفسه. فيما يلي اقتباس من فريق منتج بحث جوجل وتجارب الاختبار أثناء تعديل BERT لفهم النية وراء الاستفسار.
“هذه بعض الأمثلة التي تظهر قدرة BERT على فهم النية وراء بحثك. إليك بحثًا عن “2019 مسافر برازيلي إلى الولايات المتحدة يحتاج إلى تأشيرة.” الكلمة “إلى” وعلاقتها بالكلمات الأخرى في الاستفسار مهمة جدًا لفهم المعنى. إنه حول برازيلي يسافر إلى الولايات المتحدة وليس العكس. في السابق، لم تكن خوارزمياتنا تفهم أهمية هذا الاتصال، وتم إرجاع نتائج حول مواطني الولايات المتحدة الذين يسافرون إلى البرازيل. مع BERT، يمكن للبحث فهم هذه الدقة ويعرف أن الكلمة الشائعة “إلى” تهمنا كثيرًا هنا، ويمكننا تقديم نتيجة أكثر صلة للاستفسار هذا.”– فهم البحث بشكل أفضل من أي وقت مضى، من قبل Pandu Nayak، زميل جوجل ونائب الرئيس للبحث.

مثال على بحث BERT، قبل وبعد. مصدر مدونة
في مقالنا السابق حول معالجة اللغة الطبيعية و OCR، قد أظهرنا بعض استخدامات معالجة اللغة الطبيعية في قطاع العقارات. لقد ذكرنا أيضًا كيف أن “أدوات معالجة اللغة الطبيعية هي أدوات استخراج معلومات مثالية”. دعونا ننظر إلى قطاع الطاقة ونرى كيف تكنولوجيا معالجة اللغة الطبيعية مثل BERT تمكن تطبيقات جديدة.
يمكن لنماذج معالجة اللغة الطبيعية استخراج المعلومات من كميات كبيرة من البيانات غير المهيكلة
يمكن استخدام نماذج معالجة اللغة الطبيعية بطريقة واحدة لاستخراج المعلومات الحاسمة من بيانات النص غير المهيكلة. البريد الإلكتروني والدوريات والمذكرات والسجلات والتقارير كلها أمثلة على مصادر بيانات نصية هي جزء من عمليات الشركات اليومية. قد تثبت بعض هذه الوثائق أنها حاسمة في الجهود التنظيمية لزيادة الكفاءة التشغيلية وتقليل التكاليف.
عندما نهدف إلى تنفيذ صيانة الرياح التنبؤية، تقارير الفشل قد تحتوي على معلومات حاسمة حول سلوك المكونات المختلفة. ولكن نظرًا لأن مصنعي توربينات الرياح المختلفين لديهم معايير مختلفة لجمع البيانات (أي تقارير الصيانة تأتي في صيغ مختلفة وربما بلغات مختلفة)، يمكن أن يصبح تحديد عناصر البيانات ذات الصلة يدويًا مكلفًا للغاية للمالك. يمكن لأدوات معالجة اللغة الطبيعية استخراج المفاهيم والسمات والأحداث ذات الصلة من المحتوى غير المهيكل. يمكن بعد ذلك استخدام تحليل النص لfinding العلاقات والأنماط في مصادر البيانات المختلفة. هذا يعطي أصحاب المصانع فرصة لتنفيذ الصيانة التنبؤية بناءً على المقاييس الكمية المحددة في تقارير الفشل.
يمكن لنماذج معالجة اللغة الطبيعية تقديم واجهات بحث لغة طبيعية
بالمثل، يحتاج علماء الجيولوجيا العاملون في شركات النفط والغاز إلى استعراض العديد من الوثائق المتعلقة بالعمليات الحفرية السابقة وسجلات الآبار والبيانات الزلزالية. نظرًا لأن هذه الوثائق تأتي أيضًا في صيغ مختلفة وتنتشر عادةً في العديد من المواقع (كلاً من المواقع المادية والرقمية)، يضيعون الكثير من الوقت في البحث عن المعلومات في المكان الخطأ. سيكون حلًا قابلاً للتطبيق في这种 الحالة واجهة بحث مدعومة بمعالجة اللغة الطبيعية، التي تمكن المستخدمين من البحث عن البيانات بلغة طبيعية. يمكن بعد ذلك لنموذج معالجة اللغة الطبيعية ربط البيانات عبر مئات الوثائق وإرجاع مجموعة من الإجابات على الاستفسار. يمكن للموظفين بعد ذلك التحقق من الإخراج بناءً على معرفتهم الخبيرة، وسيشير التعليق обратي إلى تحسين النموذج.
然而، هناك أيضًا اعتبارات تقنية لتنفيذ مثل هذه النماذج. أحد الجوانب سيكون أن المصطلحات الخاصة بالصناعة يمكن أن ت混ّك النماذج التقليدية التي لا تمتلك الفهم الدلالي المناسب. ثانيًا، قد تتأثر أداء النماذج بالحجم المحدد لمجموعة بيانات التدريب. هذا هو عندما يمكن أن تثبت نماذج مسبقة التدريب مثل BERT أنها مفيدة. يمكن للتمثيلات السياقية نمذجة معنى الكلمة المناسب وإزالة أي ارتباك ناتج عن المصطلحات الخاصة بالصناعة. من خلال استخدام نماذج مسبقة التدريب، يمكن تدريب الشبكة على مجموعات بيانات أصغر. هذا يوفر الوقت والطاقة والموارد التي كانت لازمة لتدريبها من البداية.
ماذا عن عملك الخاص؟
هل يمكنك التفكير في مهام معالجة اللغة الطبيعية قد تساعدك على تقليل التكاليف وزيادة الكفاءة التشغيلية؟فريق علوم البيانات في Blue Orange Digital سعداء بتعديل BERT لصالحك أيضًا!












