رطم كيف يعمل تصنيف النص؟ - اتحدوا
اتصل بنا للحصول على مزيد من المعلومات
دروس متقدمة في الذكاء الاصطناعي:

منظمة العفو الدولية 101

كيف يعمل تصنيف النص؟

mm
تحديث on

تصنيف النص هو عملية تحليل تسلسلات النص وتخصيص علامة لها، ووضعها في مجموعة بناءً على محتواها. يشكل تصنيف النص أساس أي مهمة للذكاء الاصطناعي أو التعلم الآلي تقريبًا تتضمن معالجة اللغات الطبيعية (NLP). من خلال تصنيف النص، يمكن لبرنامج الكمبيوتر تنفيذ مجموعة واسعة من المهام المختلفة مثل التعرف على البريد العشوائي، وتحليل المشاعر، ووظائف برنامج الدردشة الآلية. كيف يعمل تصنيف النص بالضبط؟ ما هي الطرق المختلفة لتنفيذ تصنيف النص؟ سنستكشف الإجابات على هذه الأسئلة أدناه.

تحديد تصنيف النص

من المهم أن تأخذ بعض الوقت ونتأكد من أننا نفهم ما هو تصنيف النصبشكل عام ، قبل الخوض في الطرق المختلفة لتصنيف النص. تصنيف النص هو أحد تلك المصطلحات التي يتم تطبيقها على العديد من المهام والخوارزميات المختلفة ، لذلك من المفيد التأكد من فهمنا للمفهوم الأساسي لتصنيف النص قبل الانتقال لاستكشاف الطرق المختلفة التي يمكن تنفيذه بها.

يمكن اعتبار أي شيء يتضمن إنشاء فئات مختلفة للنص ، ثم تسمية عينات نصية مختلفة مثل هذه الفئات ، تصنيفًا للنص. طالما أن النظام ينفذ هذه الخطوات الأساسية ، فيمكن اعتباره مصنفًا للنص ، بغض النظر عن الطريقة الدقيقة المستخدمة لتصنيف النص وبغض النظر عن كيفية تطبيق مصنف النص في النهاية. يعد اكتشاف البريد الإلكتروني العشوائي ، وتنظيم المستندات حسب الموضوع أو العنوان ، والتعرف على شعور المراجعة لمنتج ما ، كلها أمثلة على تصنيف النص لأنه يتم إنجازها عن طريق أخذ النص كمدخل وإخراج تسمية فئة لهذا الجزء من النص.

كيف يعمل تصنيف النص؟

الصورة: Quinn Dombrowski عبر Flickr، CC BY SA 2.0، (https://www.flickr.com/photos/quinnanya/4714794045)

يمكن تصنيف معظم طرق تصنيف النص في واحدة من ثلاث فئات مختلفة: الأساليب المستندة إلى القواعد أو طرق التعلم الآلي.

طرق التصنيف المستندة إلى القواعد

تعمل طرق تصنيف النص المبني على القواعد من خلال استخدام قواعد لغوية مصممة بشكل واضح. يستخدم النظام القواعد التي أنشأها المهندس لتحديد الفئة التي يجب أن ينتمي إليها جزء معين من النص ، والبحث عن أدلة في شكل عناصر نصية ذات صلة معنوية. كل قاعدة لها نمط يجب أن يطابقه النص ليتم وضعه في الفئة المقابلة.

لكي تكون أكثر واقعية ، لنفترض أنك أردت تصميم مصنف نصوص قادر على التمييز بين مواضيع المحادثة الشائعة ، مثل الطقس أو الأفلام أو الطعام. لتمكين مصنف النص الخاص بك من التعرف على مناقشة الطقس ، يمكنك إخباره بالبحث عن الكلمات المتعلقة بالطقس في نص عينات النص التي يتم تغذيتها. سيكون لديك قائمة بالكلمات الرئيسية والعبارات والأنماط الأخرى ذات الصلة التي يمكن استخدامها لتمييز الموضوع. على سبيل المثال ، قد تطلب من المصنف البحث عن كلمات مثل "الرياح" أو "المطر" أو "الشمس" أو "الثلج" أو "السحابة". يمكنك بعد ذلك جعل المصنف يبحث في نص الإدخال ويحسب عدد المرات التي تظهر فيها هذه الكلمات في نص النص وإذا ظهرت بشكل أكثر شيوعًا من الكلمات المتعلقة بالأفلام ، فيمكنك تصنيف النص على أنه ينتمي إلى فئة الطقس.

ميزة الأنظمة المستندة إلى القواعد هي أن مدخلاتها ومخرجاتها يمكن التنبؤ بها وقابلة للتفسير من قبل البشر ، ويمكن تحسينها من خلال التدخل اليدوي من قبل المهندس. ومع ذلك ، فإن طرق التصنيف المستندة إلى القواعد هي أيضًا هشة إلى حد ما ، وغالبًا ما تواجه صعوبة في التعميم لأنها لا يمكنها الالتزام إلا بالأنماط المحددة مسبقًا التي تمت برمجتها فيها. على سبيل المثال ، يمكن أن تشير كلمة "سحابة" إلى الرطوبة في السماء ، أو يمكن أن تشير إلى سحابة رقمية حيث يتم تخزين البيانات. من الصعب على الأنظمة المستندة إلى القواعد التعامل مع هذه الفروق الدقيقة دون أن يقضي المهندسون وقتًا لا بأس به في محاولة توقع هذه التفاصيل الدقيقة يدويًا وتعديلها.

أنظمة التعلم الآلي

كما ذكر أعلاه ، فإن الأنظمة المستندة إلى القواعد لها قيود ، حيث يجب برمجة وظائفها وقواعدها مسبقًا. على النقيض من ذلك ، تعمل أنظمة التصنيف القائمة على التعلم الآلي من خلال تطبيق الخوارزميات التي تحلل مجموعات البيانات للأنماط المرتبطة بفئة معينة.

يتم تغذية خوارزميات التعلم الآلي بالمثيلات المحددة مسبقًا / المصنفة مسبقًا والتي يتم تحليلها للميزات ذات الصلة. هذه الحالات المحددة مسبقًا هي بيانات التدريب.

يحلل مصنف التعلم الآلي بيانات التدريب ويتعلم الأنماط المرتبطة بالفصول المختلفة. بعد ذلك ، يتم تجريد المثيلات غير المرئية من ملصقاتها وإدخالها في خوارزمية التصنيف التي تعين تسمية المثيلات. ثم تتم مقارنة الملصقات المخصصة بالتسميات الأصلية لمعرفة مدى دقة مصنف التعلم الآلي ، وقياس مدى معرفة النموذج بالأنماط التي تتنبأ بالفئات.

تعمل خوارزميات التعلم الآلي من خلال تحليل البيانات الرقمية. هذا يعني أنه من أجل استخدام خوارزمية التعلم الآلي على البيانات النصية ، يجب تحويل النص إلى تنسيق رقمي. هناك طرق مختلفة لترميز البيانات النصية كبيانات رقمية وإنشاء طرق تعلم الآلة حول هذه البيانات. سنغطي بعض الطرق المختلفة لتمثيل البيانات النصية أدناه.

حقيبة من الكلمات

حقيبة من بين الكلمات هو أحد الأساليب الأكثر استخدامًا لتشفير البيانات النصية وتمثيلها. يأتي مصطلح "حقيبة من الكلمات" من حقيقة أنك تأخذ كل الكلمات الموجودة في المستندات وتضعها جميعًا في "حقيبة" واحدة دون الالتفات إلى ترتيب الكلمات أو القواعد النحوية ، مع الانتباه فقط إلى تواتر الكلمات في الحقيبة. ينتج عن هذا مصفوفة طويلة ، أو متجه ، تحتوي على تمثيل واحد لجميع الكلمات في مستندات الإدخال. لذلك إذا كان هناك 10000 كلمة فريدة إجمالاً في مستندات الإدخال ، فسيكون طول متجهات الميزات 10000 كلمة. هذه هي الطريقة التي يتم بها حساب حجم ناقل الحقيبة / الميزة.

الصورة: gk_ عبر Machinelearning.co ، (https://machinelearnings.co/text-classification-using-neural-networks-f5cd7b8765c6)

بعد تحديد حجم متجه الميزة ، يتم تعيين متجه خاص به لكل مستند في قائمة المستندات الإجمالية مملوء بالأرقام التي تشير إلى عدد المرات التي تظهر فيها الكلمة المعنية في المستند الحالي. هذا يعني أنه إذا ظهرت كلمة "طعام" ثماني مرات في مستند نصي واحد ، فإن متجه الميزة / صفيف الميزة المقابل سيكون له ثمانية في الموضع المقابل.

بعبارة أخرى ، يتم تكديس جميع الكلمات الفريدة التي تظهر في مستندات الإدخال في حقيبة واحدة ثم يحصل كل مستند على متجه كلمات بالحجم نفسه ، ثم يتم ملؤه بعدد المرات التي تظهر فيها الكلمات المختلفة في المستند .

غالبًا ما تحتوي مجموعات البيانات النصية على عدد كبير من الكلمات الفريدة ، ولكن لا يتم استخدام معظمها كثيرًا. لهذا السبب ، فإن عدد الكلمات المستخدمة لإنشاء متجه الكلمات يكون عادةً محددًا بقيمة مختارة (N) وبعد ذلك سيكون بُعد متجه الميزة هو Nx1.

تردد المستند المعكوس المدى (TF-IDF)

هناك طريقة أخرى لتمثيل مستند بناءً على الكلمات الموجودة فيه وهي مدبلجة تردد المستند المعكوس المدى (TF-IDF). يُنشئ نهج TF-IDF أيضًا متجهًا يمثل المستند بناءً على الكلمات الموجودة فيه ، ولكن على عكس Bag-of-Words ، فإن هذه الكلمات هي مرجحة بأكثر من مجرد ترددها. تنظر TF-IDF إلى أهمية الكلمات في الوثائق ، في محاولة لتحديد مدى صلة هذه الكلمة بموضوع المستند. بعبارة أخرى ، يحلل TF-IDF الملاءمة بدلاً من التردد ويتم استبدال عدد الكلمات في متجه الميزة بعلامة TF-IDF التي يتم حسابها فيما يتعلق بمجموعة البيانات بأكملها.

يعمل نهج TF-IDF أولاً عن طريق حساب مصطلح التكرار ، وهو عدد المرات التي تظهر فيها المصطلحات الفريدة في مستند معين. ومع ذلك ، فإن TF-IDF تهتم أيضًا بالحد من تأثير الكلمات الشائعة للغاية مثل "the" و "or" و "و" ، نظرًا لأن "كلمات التوقف" هذه شائعة جدًا ولكنها تنقل القليل جدًا من المعلومات حول محتوى المستند. يجب استبعاد هذه الكلمات ، وهو ما يشير إليه جزء "تردد المستند العكسي" من TF-IDF. يتم إجراء ذلك لأنه كلما زاد عدد المستندات التي تظهر فيها كلمات معينة ، قلت فائدة هذه الكلمة في تمييزها عن المستندات الأخرى في قائمة جميع المستندات. تم تصميم الصيغة التي يستخدمها TF-IDF لحساب أهمية الكلمة للحفاظ على الكلمات الأكثر شيوعًا والأكثر ثراءً من الناحية المعنوية.

تحتوي متجهات الميزات التي تم إنشاؤها بواسطة نهج TF-IDF على قيم طبيعية تجمع إلى واحد ، مع تخصيص قيمة مرجحة لكل كلمة كما تم حسابها بواسطة صيغة TF-IDF.

كلمة حفلات الزفاف

كلمة تطريز هي طرق لتمثيل النص التي تضمن أن الكلمات ذات المعاني المتشابهة لها تمثيلات رقمية متشابهة.

كلمة تطريز تعمل عن طريق "توجيه" الكلمات، مما يعني أنها تمثل الكلمات كمتجهات ذات قيمة حقيقية في فضاء متجه. توجد المتجهات في شبكة أو مصفوفة ، ولها اتجاه وطول (أو مقدار). عند تمثيل الكلمات كمتجهات ، يتم تحويل الكلمات إلى متجهات تتكون من قيم حقيقية. يتم تعيين كل كلمة إلى متجه واحد ، والكلمات المتشابهة في المعنى لها نفس الاتجاه والحجم. هذا النوع من الترميز يجعل من الممكن لخوارزمية التعلم الآلي أن تتعلم العلاقات المعقدة بين الكلمات.

يتم إنشاء الزخارف التي تمثل كلمات مختلفة فيما يتعلق بكيفية استخدام الكلمات المعنية. نظرًا لأن الكلمات المستخدمة بطرق متشابهة سيكون لها متجهات متشابهة ، فإن عملية إنشاء زخارف الكلمات تترجم تلقائيًا بعض المعاني التي تحملها الكلمات. على النقيض من ذلك ، فإن نهج كيس الكلمات يخلق تمثيلات هشة حيث سيكون للكلمات المختلفة تمثيلات متباينة حتى لو تم استخدامها في سياقات متشابهة للغاية.

نتيجة لذلك ، تكون عمليات دمج الكلمات أفضل في التقاط سياق الكلمات داخل الجملة.

هناك خوارزميات وأساليب مختلفة مستخدمة لإنشاء زخارف كلمة. تتضمن بعض طرق تضمين الكلمات الأكثر شيوعًا وموثوقية: تضمين الطبقات و word2vec و GloVe.

تضمين الطبقات

إحدى الطرق المحتملة لاستخدام حفلات الزفاف جنبًا إلى جنب مع التعلم الآلي / نظام التعلم العميق هي استخدم طبقة التضمين. تعد طبقات التضمين طبقات تعلم عميقة تقوم بتحويل الكلمات إلى حفلات زفاف يتم إدخالها بعد ذلك في بقية نظام التعلم العميق. يتم تعلم كلمة التضمينات عندما تتدرب الشبكة لمهمة محددة تستند إلى النص.

في نهج تضمين الكلمات ، سيكون للكلمات المتشابهة تمثيلات متشابهة وتكون أقرب إلى بعضها البعض من الكلمات غير المتشابهة.

لاستخدام طبقات التضمين ، يجب معالجة النص أولاً. يجب أن يكون النص الموجود في المستند مشفرًا بطريقة ساخنة ، ويجب تحديد حجم المتجه مسبقًا. ثم يتم تحويل النص الساخن إلى متجهات كلمات ويتم تمرير المتجهات في نموذج التعلم الآلي.

Word2Old

Word2Old هي طريقة أخرى شائعة لتضمين الكلمات. يستخدم Word2Vec طرقًا إحصائية لتحويل الكلمات إلى حفلات الزفاف ويتم تحسينه للاستخدام مع النماذج القائمة على الشبكة العصبية. تم تطوير Word2Vec بواسطة باحثين في Google وهو أحد أكثر طرق التضمين شيوعًا ، حيث ينتج بشكل موثوق به زخارف غنية ومفيدة. تعد تمثيلات Word2Vec مفيدة في تحديد القواسم المشتركة الدلالية والنحوية في اللغة. هذا يعني أن تمثيلات Word2Vec تلتقط العلاقات بين المفاهيم المتشابهة ، والقدرة على التمييز بين أن القواسم المشتركة بين "الملك" و "الملكة" هي ملكية وأن "الملك" تعني "الرجولة" بينما تشير الملكة إلى "المرأة".

قفاز

GloVE ، أو ناقل عالمي لتمثيل Word، يعتمد على خوارزميات التضمين المستخدمة بواسطة Word2Vec. تجمع طرق تضمين GloVe بين جوانب كل من Word2Vec وتقنيات عامل المصفوفة مثل التحليل الدلالي الكامن. ميزة Word2Vec هي أنه يمكنه التقاط السياق ، ولكن كمقايضة فإنه لا يلتقط إحصائيات النص العالمية بشكل جيد. على العكس من ذلك ، فإن تمثيلات المتجهات التقليدية جيدة في تحديد إحصائيات النص العالمية ولكنها ليست مفيدة في تحديد سياق الكلمات والعبارات. يعتمد GloVE على أفضل ما في كلا الأسلوبين ، حيث يتم إنشاء سياق الكلمات استنادًا إلى إحصائيات النص العالمية.

Blogger والمبرمج مع تخصصات في تعلم آلة و تعلم عميق المواضيع. يأمل دانيال في مساعدة الآخرين على استخدام قوة الذكاء الاصطناعي من أجل الصالح الاجتماعي.