اتصل بنا للحصول على مزيد من المعلومات

أفضل من

أفضل 10 خوارزميات للتعلم الآلي

mm
تحديث on

على الرغم من أننا نعيش فترة من الابتكار الاستثنائي في التعلم الآلي المسرع بواسطة وحدة معالجة الرسومات، فإن أحدث الأوراق البحثية كثيرًا (وبشكل بارز) تتميز بخوارزميات عمرها عقود، وفي بعض الحالات عمرها 70 عامًا.

قد يجادل البعض بأن العديد من هذه الأساليب القديمة تقع في معسكر "التحليل الإحصائي" بدلاً من التعلم الآلي ، ويفضلون تأريخ ظهور هذا القطاع حتى عام 1957 فقط ، مع اختراع Perceptron.

نظرًا لمدى دعم هذه الخوارزميات القديمة واندماجها في أحدث الاتجاهات والتطورات التي تتصدر العناوين الرئيسية في التعلم الآلي ، فإن هذا موقف قابل للجدل. لذلك دعونا نلقي نظرة على بعض اللبنات الأساسية "الكلاسيكية" التي تقوم عليها أحدث الابتكارات ، بالإضافة إلى بعض الإدخالات الجديدة التي تقدم عطاءًا مبكرًا لقاعة شهرة الذكاء الاصطناعي.

1: المحولات

في عام 2017 ، قادت Google Research تعاونًا بحثيًا بلغ ذروته في ورقة الاهتمام هو كل ما تحتاجه. حدد العمل بنية جديدة روجت آليات الانتباه من "الأنابيب" في نماذج الشبكة المتكررة / وحدة فك التشفير والتشفير إلى تقنية تحويل مركزية في حد ذاتها.

النهج كان يطلق عليها اسم محول، ومنذ ذلك الحين أصبحت منهجية ثورية في معالجة اللغات الطبيعية (NLP)، مما يدعم، من بين العديد من الأمثلة الأخرى، نموذج اللغة الانحداري الذاتي وGPT-3 للذكاء الاصطناعي.

المحولات بأناقة حل مشكلة توصيل تسلسلي، ويسمى أيضًا "التحويل"، والذي يهتم بمعالجة تسلسلات الإدخال إلى تسلسلات الإخراج. يستقبل المحول أيضًا البيانات ويديرها بطريقة مستمرة، وليس على دفعات متسلسلة، مما يسمح بـ "استمرار الذاكرة" التي لم يتم تصميم معماريات RNN للحصول عليها. للحصول على نظرة عامة أكثر تفصيلاً عن المحولات، قم بإلقاء نظرة على مقالنا المرجعي.

على النقيض من الشبكات العصبية المتكررة (RNNs) التي بدأت تهيمن على أبحاث تعلم الآلة في عصر CUDA، يمكن أيضًا تصميم بنية المحولات بسهولة مواز، مما يفتح الطريق للتعامل بشكل منتج مع مجموعة بيانات أكبر بكثير من RNNs.

الاستخدام الشائع

استحوذت المحولات على مخيلة الجمهور في عام 2020 بإصدار OpenAI's GPT-3 ، والذي تفاخر بتحطيم الأرقام القياسية في ذلك الوقت 175 مليار المعلمة. هذا الإنجاز المذهل على ما يبدو طغت عليه مشاريع لاحقة ، مثل 2021 الافراج عن من Microsoft Megatron-Turing NLG 530B ، والتي (كما يوحي الاسم) تضم أكثر من 530 مليار معلمة.

جدول زمني لمشاريع Transformer NLP الفائقة. المصدر: مايكروسوفت

جدول زمني لمشاريع Transformer NLP الفائقة. المصدر مایکروسافت

لقد عبرت بنية المحولات أيضًا من البرمجة اللغوية العصبية (NLP) إلى رؤية الكمبيوتر، مما أدى إلى تشغيل الجيل الجديد من أطر تركيب الصور مثل OpenAI CLIP و لوح، التي تستخدم النص> تعيين مجال الصورة لإنهاء الصور غير المكتملة وتوليف الصور الجديدة من المجالات المدربة ، من بين عدد متزايد من التطبيقات ذات الصلة.

يحاول DALL-E إكمال صورة جزئية لتمثال نصفي لأفلاطون. المصدر: https://openai.com/blog/dall-e/

يحاول DALL-E إكمال صورة جزئية لتمثال نصفي لأفلاطون. المصدر: https://openai.com/blog/dall-e/

2: شبكات الخصومة التوليدية (GANs)

على الرغم من أن المحولات قد حظيت بتغطية إعلامية غير عادية من خلال إصدار واعتماد GPT-3 ، إلا أن شبكة الخصومة التوليدية (GAN) علامة تجارية معروفة في حد ذاتها ، وقد تنضم في النهاية deepfake كفعل.

اقترح أولا في القرن الرابع الميلادي وتستخدم بشكل أساسي لتركيب الصور ، وهي شبكة خصومة توليدية هندسة معمارية يتكون من مولد كهرباء و مميز. يتنقل المولد عبر آلاف الصور في مجموعة بيانات ، ويحاول بشكل متكرر إعادة بنائها. لكل محاولة ، يقوم Discriminator بتصنيف عمل المولد ، ويرسل المولد مرة أخرى للقيام بعمل أفضل ، ولكن دون أي فكرة عن الطريقة التي أخطأت بها عملية إعادة البناء السابقة.

المصدر: https://developers.google.com/machine-learning/gan/gan_structure

المصدر: https://developers.google.com/machine-learning/gan/gan_structure

هذا يجبر المولد على استكشاف العديد من السبل ، بدلاً من اتباع الأزقة العمياء المحتملة التي كان من الممكن أن تنتج إذا أخبرها المُميّز بمكان حدوث الخطأ (انظر رقم 8 أدناه). بحلول الوقت الذي ينتهي فيه التدريب ، يكون لدى المُنشئ خريطة مفصلة وشاملة للعلاقات بين النقاط في مجموعة البيانات.

مقتطف من الفيديو المصاحب للباحثين (انظر التضمين في نهاية المقال). لاحظ أن المستخدم يقوم بمعالجة التحويلات بمؤشر "مسك" (أعلى اليسار). المصدر: https://www.youtube.com/watch؟

من الورق تحسين توازن GAN عن طريق رفع الوعي المكاني: يتنقل إطار عمل جديد عبر الفضاء الكامن الغامض أحيانًا لشبكة GAN ، مما يوفر وسيلة استجابة لبنية تركيب الصورة. المصدر: https://genforce.github.io/eqgan/

على سبيل القياس ، هذا هو الفرق بين تعلم رحلة رتابة واحدة إلى وسط لندن ، أو الحصول بشق الأنفس على المعرفة.

والنتيجة هي مجموعة عالية المستوى من الميزات في المساحة الكامنة للنموذج المدرب. يمكن أن يكون المؤشر الدلالي لخاصية عالية المستوى هو "شخص" ، بينما قد يؤدي الانحدار من خلال الخصوصية المتعلقة بالميزة إلى اكتشاف خصائص مكتسبة أخرى ، مثل "ذكر" و "أنثى". في المستويات الأدنى ، يمكن أن تنقسم الميزات الفرعية إلى "شقراء" و "قوقازية" وآخرون.

التشابك هو قضية بارزة في الفضاء الكامن لشبكات GAN وأطر عمل التشفير / فك التشفير: هل الابتسامة على وجه أنثوي تولد من GAN هي سمة متشابكة لـ "هويتها" في الفضاء الكامن ، أم أنها فرع موازٍ؟

الوجوه التي تم إنشاؤها بواسطة GAN من هذه الصفات غير موجودة. المصدر: https://this-person-does-not-exist.com/en

الوجوه التي تم إنشاؤها بواسطة GAN من هذه الصفات غير موجودة. المصدر: https://this-person-does-not-exist.com/en

لقد أفرز العامان الماضيان عددًا متزايدًا من المبادرات البحثية الجديدة في هذا الصدد ، وربما يمهد الطريق لتحرير على مستوى الميزات ونمط Photoshop للمساحة الكامنة لشبكة GAN ، ولكن في الوقت الحالي ، هناك العديد من التحولات بشكل فعال. حزم الكل أو لا شيء. والجدير بالذكر أن إصدار EditGAN الخاص بـ NVIDIA في أواخر عام 2021 يحقق أ مستوى عالي من التفسير في الفضاء الكامن باستخدام أقنعة التجزئة الدلالية.

الاستخدام الشائع

إلى جانب مشاركتهم (المحدودة في الواقع) في مقاطع الفيديو المزيفة الشائعة ، انتشرت شبكات GAN المرتكزة على الصور / الفيديو على مدار السنوات الأربع الماضية ، مما أثار إعجاب الباحثين والجمهور على حدٍ سواء. تمثل مواكبة المعدل المذهل وتواتر الإصدارات الجديدة تحديًا ، على الرغم من مستودع GitHub تطبيقات GAN الرائعة يهدف إلى تقديم قائمة شاملة.

يمكن لشبكات الخصومة التوليدية نظريًا اشتقاق ميزات من أي مجال مؤطر جيدًا ، بما في ذلك النص.

3: سفم

نشأت في القرن الرابع الميلادي, دعم شاحنات النقل (SVM) هي خوارزمية أساسية تظهر بشكل متكرر في الأبحاث الجديدة. ضمن SVM ، تعين المتجهات الترتيب النسبي لنقاط البيانات في مجموعة البيانات ، بينما الدعم المتجهات ترسم الحدود بين المجموعات أو السمات أو السمات المختلفة.

نواقل الدعم تحدد الحدود بين المجموعات. المصدر: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

نواقل الدعم تحدد الحدود بين المجموعات. المصدر: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

تسمى الحدود المشتقة أ مستوي مفرط.

في مستويات الميزات المنخفضة ، يكون SVM هو ثنائي الأبعاد (الصورة أعلاه) ، ولكن عندما يكون هناك عدد أكبر معروف من المجموعات أو الأنواع ، يصبح ثلاثي الأبعاد.

تتطلب مجموعة أعمق من النقاط والمجموعات استخدام SVM ثلاثي الأبعاد. المصدر: https://cml.rhul.ac.uk/svm.html

تتطلب مجموعة أعمق من النقاط والمجموعات استخدام SVM ثلاثي الأبعاد. المصدر: https://cml.rhul.ac.uk/svm.html

الاستخدام الشائع

نظرًا لأن أجهزة المتجهات الداعمة يمكنها معالجة البيانات عالية الأبعاد للعديد من الأنواع بفعالية وبشكل حيادي، فإنها تظهر على نطاق واسع عبر مجموعة متنوعة من قطاعات التعلم الآلي، بما في ذلك كشف التزييف العميق, تصنيف الصورة, تصنيف الكلام الذي يحض على الكراهية, تحليل الحمض النووي و توقع التركيبة السكانية، من بين عدة آخرين.

4: K-يعني التجميع

التجميع بشكل عام هو ملف تعليم غير مشرف عليه النهج الذي يسعى إلى تصنيف نقاط البيانات من خلال تقدير الكثافة، وإنشاء خريطة لتوزيع البيانات قيد الدراسة.

K-Means clustering يقسم الشرائح والمجموعات والمجتمعات في البيانات. المصدر: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K-Means clustering يقسم الشرائح والمجموعات والمجتمعات في البيانات. المصدر: https://aws.amazon.com/blogs/machine-learning/k-means-clustering-with-amazon-sagemaker/

K- يعني التكتل أصبح التطبيق الأكثر شيوعًا لهذا النهج ، حيث يقوم برعاية نقاط البيانات في "مجموعات K" المميزة ، والتي قد تشير إلى القطاعات الديموغرافية أو المجتمعات عبر الإنترنت أو أي تجميع سري آخر محتمل ينتظر أن يتم اكتشافه في البيانات الإحصائية الأولية.

تتشكل المجموعات في تحليل K-Means. المصدر: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

تتشكل المجموعات في تحليل K-Means. المصدر: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/

قيمة K نفسها هي العامل المحدد في فائدة العملية ، وفي تحديد القيمة المثلى للكتلة. في البداية ، يتم تعيين قيمة K بشكل عشوائي ، وميزاتها وخصائصها المتجهية مقارنة بجيرانها. يتم تعيين تلك الأجهزة المجاورة التي تشبه إلى حد بعيد نقطة البيانات مع القيمة المعينة عشوائيًا إلى مجموعتها بشكل تكراري حتى تنتج البيانات جميع التجمعات التي تسمح بها العملية.

ستكشف مؤامرة الخطأ التربيعي أو "تكلفة" القيم المختلفة بين المجموعات عن نقطة الكوع للبيانات:

"نقطة الكوع" في الرسم البياني العنقودي. المصدر: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

"نقطة الكوع" في الرسم البياني العنقودي. المصدر: https://www.scikit-yb.org/en/latest/api/cluster/elbow.html

تشبه نقطة الكوع من حيث المفهوم الطريقة التي تتسطح بها الخسارة إلى تناقص الغلة في نهاية جلسة التدريب لمجموعة البيانات. إنه يمثل النقطة التي لن يتضح عندها أي تمييز إضافي بين المجموعات ، مما يشير إلى لحظة الانتقال إلى المراحل اللاحقة في خط أنابيب البيانات ، أو الإبلاغ عن النتائج.

الاستخدام الشائع

تعد K-Means Clustering ، لأسباب واضحة ، تقنية أساسية في تحليل العملاء ، لأنها تقدم منهجية واضحة وقابلة للتفسير لترجمة كميات كبيرة من السجلات التجارية إلى رؤى ديموغرافية و "عملاء متوقعين".

خارج هذا التطبيق ، يتم استخدام K-Means Clustering أيضًا لـ توقع الانهيارات الأرضية, تجزئة الصورة الطبية, توليف الصور مع شبكات GAN, تصنيف الوثيقةو تخطيط المدينة، من بين العديد من الاستخدامات المحتملة والفعلية الأخرى.

5: غابة عشوائية

الغابة العشوائية هي تعلم المجموعة الأسلوب الذي يحسب متوسط ​​النتيجة من مصفوفة من أشجار القرار لإنشاء توقع شامل للنتيجة.

المصدر: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

المصدر: https://www.tutorialandexample.com/wp-content/uploads/2019/10/Decision-Trees-Root-Node.png

إذا كنت قد بحثت عنه حتى ولو كان قليلاً مثل مشاهدة العودة إلى المستقبل ثلاثية، من السهل إلى حد ما تصور شجرة القرار في حد ذاتها: يوجد عدد من المسارات أمامك، وكل مسار يتفرع إلى نتيجة جديدة والتي بدورها تحتوي على المزيد من المسارات المحتملة.

In تعزيز التعلم، قد تتراجع عن مسار وتبدأ مرة أخرى من موقف سابق ، بينما تلتزم أشجار القرار برحلاتها.

وبالتالي ، فإن خوارزمية Random Forest هي أساسًا مراهنة على انتشار القرارات. تسمى الخوارزمية "عشوائية" لأنها تصنع مخصص التحديدات والملاحظات من أجل فهم متوسط مجموع النتائج من مصفوفة شجرة القرار.

نظرًا لأنه يأخذ في الاعتبار تعدد العوامل ، يمكن أن يكون تحويل نهج الغابة العشوائية إلى رسوم بيانية ذات مغزى أكثر صعوبة من تحويل شجرة القرار ، ولكن من المحتمل أن يكون أكثر إنتاجية بشكل ملحوظ.

تخضع أشجار القرار للإفراط في التجهيز ، حيث تكون النتائج المتحصل عليها خاصة بالبيانات وليس من المرجح أن تعمم. يكافح التحديد العشوائي لنقاط البيانات من قِبل Random Forest هذا الاتجاه ، والتنقل عبر الاتجاهات التمثيلية المفيدة والمفيدة في البيانات.

انحدار شجرة القرار. المصدر: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

انحدار شجرة القرار. المصدر: https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html

الاستخدام الشائع

كما هو الحال مع العديد من الخوارزميات في هذه القائمة ، تعمل Random Forest عادةً كفارز "مبكر" ومرشح للبيانات ، وعلى هذا النحو تظهر باستمرار في الأوراق البحثية الجديدة. تتضمن بعض الأمثلة على استخدام Random Forest توليف صورة الرنين المغناطيسي, التنبؤ سعر بيتكوين, تجزئة التعداد, تصنيف النص و كشف الاحتيال في بطاقة الائتمان.

نظرًا لأن Random Forest هي خوارزمية منخفضة المستوى في بنيات التعلم الآلي ، فيمكنها أيضًا المساهمة في أداء طرق أخرى منخفضة المستوى ، بالإضافة إلى خوارزميات التصور ، بما في ذلك التجميع الاستقرائي, تحولات الميزات، تصنيف الوثائق النصية باستخدام ميزات متفرقةو عرض خطوط الأنابيب.

6: ساذج بايز

مقرونة بتقدير الكثافة (انظر 4، فوق بايز ساذجة المصنف هو خوارزمية قوية ولكنها خفيفة الوزن نسبيًا قادرة على تقدير الاحتمالات بناءً على الميزات المحسوبة للبيانات.

العلاقات المميزة في مصنف Bayes الساذج. المصدر: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

العلاقات المميزة في مصنف Bayes الساذج. المصدر: https://www.sciencedirect.com/topics/computer-science/naive-bayes-model

يشير المصطلح "ساذج" إلى الافتراض في مبرهنة بايز هذه الميزات غير مرتبطة ، والمعروفة باسم الاستقلال المشروط. إذا كنت تتبنى وجهة النظر هذه ، فإن المشي والتحدث مثل البطة لا يكفيان لإثبات أننا نتعامل مع بطة ، ولا يتم تبني افتراضات "واضحة" قبل الأوان.

سيكون هذا المستوى من الدقة الأكاديمية والاستقصائية مبالغًا فيه عندما يتوفر "الحس السليم" ، ولكنه يمثل معيارًا قيمًا عند اجتياز العديد من أوجه الغموض والارتباطات غير ذات الصلة التي قد تكون موجودة في مجموعة بيانات التعلم الآلي.

في شبكة Bayesian الأصلية ، تخضع الميزات وظائف التهديف، بما في ذلك الحد الأدنى لطول الوصف و التهديف بايزي، والتي يمكن أن تفرض قيودًا على البيانات من حيث الاتصالات المقدرة الموجودة بين نقاط البيانات ، والاتجاه الذي تتدفق فيه هذه الاتصالات.

على العكس من ذلك ، يعمل مصنف Bayes الساذج من خلال افتراض أن ميزات كائن معين مستقلة ، وبالتالي يستخدم نظرية Bayes لحساب احتمال كائن معين ، بناءً على ميزاته.

الاستخدام الشائع

يتم تمثيل مرشحات Naive Bayes بشكل جيد في التنبؤ بالمرض وتصنيف الوثائق, تصفية البريد المزعج, تصنيف المشاعر, أنظمة التوصيةو الكشف عن الغش، من بين تطبيقات أخرى.

7: K- أقرب الجيران (KNN)

تم اقتراحه لأول مرة من قبل كلية طب الطيران التابعة للقوات الجوية الأمريكية في القرن الرابع الميلادي، والاضطرار إلى التكيف مع أحدث أجهزة الحوسبة في منتصف القرن العشرين ، K- أقرب الجيران (KNN) هي خوارزمية بسيطة لا تزال تبرز بشكل بارز عبر الأوراق الأكاديمية ومبادرات أبحاث التعلم الآلي في القطاع الخاص.

يُطلق على KNN اسم "المتعلم الكسول" ، نظرًا لأنه يمسح مجموعة بيانات بشكل شامل من أجل تقييم العلاقات بين نقاط البيانات ، بدلاً من طلب تدريب نموذج تعلم آلي كامل.

مجموعة KNN. المصدر: https://scikit-learn.org/stable/modules/neighbours.html

مجموعة KNN. مصدر: https://scikit-learn.org/stable/modules/neighbors.html

على الرغم من أن KNN نحيلة من الناحية المعمارية ، إلا أن نهجه النظامي يفرض طلبًا ملحوظًا على عمليات القراءة / الكتابة ، ويمكن أن يكون استخدامه في مجموعات البيانات الكبيرة جدًا مشكلة بدون تقنيات مساعدة مثل تحليل المكونات الرئيسية (PCA) ، والتي يمكن أن تحول مجموعات البيانات المعقدة وذات الحجم الكبير داخل التجمعات التمثيلية يمكن لـ KNN اجتيازها بجهد أقل.

A دراسة حديثة قام بتقييم فعالية واقتصاد عدد من الخوارزميات المكلفة بالتنبؤ بما إذا كان الموظف سيغادر الشركة ، ووجد أن KNN السبعيني ظل متفوقًا على المنافسين الأكثر حداثة من حيث الدقة والفعالية التنبؤية.

الاستخدام الشائع

على الرغم من بساطتها الشائعة في المفهوم والتنفيذ ، فإن KNN ليست عالقة في الخمسينيات من القرن الماضي - لقد تم تكييفها مع نهج أكثر تركيزًا على DNN في مقترح 2018 من جامعة ولاية بنسلفانيا ، ولا تزال عملية مركزية في مرحلة مبكرة (أو أداة تحليلية بعد المعالجة) في العديد من أطر التعلم الآلي الأكثر تعقيدًا.

في تكوينات مختلفة ، تم استخدام KNN أو من أجله التحقق من التوقيع عبر الإنترنت, تصنيف الصورة, تحليل النصوص, توقع المحاصيلو التعرف على الوجه، إلى جانب التطبيقات والتطبيقات الأخرى.

نظام التعرف على الوجه القائم على KNN في التدريب. المصدر: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

نظام التعرف على الوجه القائم على KNN في التدريب. Source: https://pdfs.semanticscholar.org/6f3d/d4c5ffeb3ce74bf57342861686944490f513.pdf

8: عملية اتخاذ القرار ماركوف (MDP)

إطار رياضي قدمه عالم الرياضيات الأمريكي ريتشارد بيلمان في القرن الرابع الميلادي، تعد عملية قرار ماركوف (MDP) واحدة من أكثر الكتل الأساسية لـ تعزيز التعلم معماريات. خوارزمية مفاهيمية في حد ذاتها ، تم تكييفها في عدد كبير من الخوارزميات الأخرى ، وتتكرر بشكل متكرر في المحصول الحالي لأبحاث الذكاء الاصطناعي / تعلم الآلة.

يستكشف MDP بيئة البيانات باستخدام تقييمها لحالتها الحالية (أي "أين" في البيانات) لتحديد عقدة البيانات التي يجب استكشافها بعد ذلك.

المصدر: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

المصدر: https://www.sciencedirect.com/science/article/abs/pii/S0888613X18304420

ستعطي عملية اتخاذ القرار الأساسية لماركوف الأولوية للميزة على المدى القريب على الأهداف المرغوبة على المدى الطويل. لهذا السبب، عادة ما يتم تضمينه في سياق بنية سياسة أكثر شمولاً في التعلم المعزز، وغالبًا ما يخضع لعوامل مقيدة مثل المكافأة المخفضة، وغيرها من المتغيرات البيئية المعدلة التي ستمنعه ​​من الاندفاع نحو هدف فوري دون اعتبار. من النتيجة المرجوة على نطاق أوسع.

الاستخدام الشائع

مفهوم المستوى المنخفض لبرنامج MDP واسع الانتشار في كل من البحث والنشر النشط للتعلم الآلي. تم اقتراحه ل أنظمة الدفاع الأمني ​​لإنترنت الأشياء, حصاد الأسماكو توقعات السوق.

إلى جانب ذلك قابلية التطبيق الواضحة في لعبة الشطرنج وغيرها من الألعاب المتسلسلة بدقة ، يعد MDP أيضًا منافسًا طبيعيًا لـ التدريب الإجرائي لأنظمة الروبوتاتكما نرى في الفيديو أدناه.

مخطط عالمي يستخدم عملية قرار ماركوف - الروبوتات الصناعية المتنقلة

 

9: مصطلح وثيقة معكوس التردد

تردد المصطلح (TF) يقسم عدد مرات ظهور الكلمة في مستند على العدد الإجمالي للكلمات في ذلك المستند. هكذا كانت الكلمة ختم ظهور مقال مرة واحدة في كل ألف كلمة له تكرار المصطلح 0.001. في حد ذاته ، فإن TF غير مجدية إلى حد كبير كمؤشر على أهمية المصطلح ، بسبب حقيقة أن المقالات التي لا معنى لها (مثل a, و , الو it) تسود.

للحصول على قيمة ذات معنى لمصطلح ما ، يحسب تردد المستند العكسي (IDF) قيمة TF لكلمة عبر مستندات متعددة في مجموعة بيانات ، مع تخصيص تصنيف منخفض للتردد العالي جدًا كلمات التوقف، مثل المقالات. يتم تطبيع متجهات السمات الناتجة على القيم الكاملة ، مع تعيين وزن مناسب لكل كلمة.

يرجح TF-IDF أهمية المصطلحات بناءً على التكرار عبر عدد من المستندات ، مع ندرة حدوثها كمؤشر على البروز. المصدر: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

يرجح TF-IDF أهمية المصطلحات بناءً على التكرار عبر عدد من المستندات ، مع ندرة حدوثها كمؤشر على البروز. المصدر: https://moz.com/blog/inverse-document-frequency-and-the-importance-of-uniqueness

على الرغم من أن هذا النهج يمنع فقدان الكلمات المهمة لغويًا مثل القيم المتطرفة، فإن عكس وزن التردد لا يعني تلقائيًا أن مصطلح التردد المنخفض هو ليس الخارجة ، لأن بعض الأشياء نادرة و عديم القيمة. لذلك ، سيحتاج مصطلح التردد المنخفض إلى إثبات قيمته في السياق المعماري الأوسع من خلال عرضه (حتى عند التردد المنخفض لكل مستند) في عدد من المستندات في مجموعة البيانات.

على الرغم من موقعها السن، TF-IDF هي طريقة فعالة وشائعة لممرات التصفية الأولية في أطر معالجة اللغة الطبيعية.

الاستخدام الشائع

نظرًا لأن TF-IDF قد لعب دورًا ما على الأقل في تطوير خوارزمية PageRank الخفية إلى حد كبير من Google على مدار العشرين عامًا الماضية ، فقد أصبح على نطاق واسع جدا كتكتيك تلاعب لتحسين محركات البحث ، على الرغم من جون مولر 2019 إنكار من أهميتها في نتائج البحث.

بسبب السرية التي تحيط بنظام ترتيب الصفحات ، لا يوجد دليل واضح على أن TF-IDF كذلك ليس حاليًا تكتيك فعال للارتقاء في تصنيفات Google. حارق مناقشة بين محترفي تكنولوجيا المعلومات مؤخرًا يشير إلى فهم شائع ، سواء كان صحيحًا أم لا ، أن إساءة استخدام المصطلح قد تؤدي إلى تحسين موضع تحسين محركات البحث (على الرغم من أنها إضافية اتهامات بتجاوزات الاحتكار و الإعلان المفرط طمس حدود هذه النظرية).

10: نزول التدرج العشوائي

الانحدار العشوائي (SGD) هي طريقة شائعة بشكل متزايد لتحسين تدريب نماذج التعلم الآلي.

نزول التدرج نفسه هو طريقة لتحسين ومن ثم قياس التحسن الذي يقوم به النموذج أثناء التدريب.

بهذا المعنى ، يشير "التدرج اللوني" إلى منحدر للأسفل (بدلاً من التدرج اللوني ، انظر الصورة أدناه) ، حيث تمثل أعلى نقطة في "التل" ، على اليسار ، بداية عملية التدريب. في هذه المرحلة ، لم ير النموذج بعد البيانات الكاملة ولو مرة واحدة ، ولم يتعلم ما يكفي عن العلاقات بين البيانات لإنتاج تحولات فعالة.

نزول متدرج في جلسة تدريب على تغيير الوجه. يمكننا أن نرى أن التدريب قد استقر لبعض الوقت في الشوط الثاني ، لكنه استعاد طريقه في النهاية إلى أسفل التدرج نحو تقارب مقبول.

نزول متدرج في جلسة تدريب على تغيير الوجه. يمكننا أن نرى أن التدريب قد استقر لبعض الوقت في الشوط الثاني ، لكنه استعاد طريقه في النهاية إلى أسفل التدرج نحو تقارب مقبول.

تمثل أدنى نقطة ، على اليمين ، التقارب (النقطة التي يكون فيها النموذج فعّالاً بقدر ما سيخضع للقيود والإعدادات المفروضة).

يعمل التدرج كسجل ومتنبئ للتفاوت بين معدل الخطأ (مدى دقة النموذج في تعيين علاقات البيانات حاليًا) والأوزان (الإعدادات التي تؤثر على الطريقة التي سيتعلم بها النموذج).

يمكن استخدام سجل التقدم هذا لإبلاغ أ جدول معدل التعلم، وهي عملية تلقائية تخبر العمارة بأن تصبح أكثر دقة ودقة مع تحول التفاصيل الغامضة المبكرة إلى علاقات وتعيينات واضحة. في الواقع ، يوفر فقدان التدرج خريطة في الوقت المناسب للمكان الذي يجب أن يذهب إليه التدريب بعد ذلك ، وكيف يجب أن يستمر.

يتمثل ابتكار Stochastic Gradient Descent في أنه يقوم بتحديث معلمات النموذج في كل مثال تدريبي لكل تكرار ، مما يؤدي عمومًا إلى تسريع رحلة التقارب. نظرًا لظهور مجموعات البيانات الفائقة النطاق في السنوات الأخيرة ، نمت شعبية SGD مؤخرًا كطريقة ممكنة لمعالجة المشكلات اللوجستية التي تلت ذلك.

من ناحية أخرى ، فإن SGD الآثار السلبية لمقياس الميزة ، وقد يتطلب المزيد من التكرارات لتحقيق نفس النتيجة ، مما يتطلب تخطيطًا إضافيًا ومعلمات إضافية ، مقارنةً بالنزول المتدرج العادي.

الاستخدام الشائع

نظرًا لقابليته للتكوين ، وعلى الرغم من أوجه القصور فيه ، فقد أصبح SGD أكثر خوارزمية التحسين شيوعًا لتناسب الشبكات العصبية. أحد إعدادات SGD التي أصبحت مهيمنة في أوراق بحث AI / ML الجديدة هو اختيار تقدير اللحظة التكيفية (ADAM ، المقدمة في القرن الرابع الميلادي) محسن.

يقوم ADAM بتكييف معدل التعلم لكل معلمة ديناميكيًا ("معدل التعلم التكيفي") ، بالإضافة إلى دمج النتائج من التحديثات السابقة في التكوين اللاحق ("الزخم"). بالإضافة إلى ذلك ، يمكن تهيئته لاستخدام الابتكارات اللاحقة ، مثل نيستيروف الزخم.

ومع ذلك ، يرى البعض أن استخدام الزخم يمكن أن يؤدي أيضًا إلى تسريع ADAM (وخوارزميات مماثلة) إلى a الاستنتاج دون الأمثل. كما هو الحال مع معظم حافة النزف في قطاع أبحاث التعلم الآلي ، فإن SGD هي عمل مستمر.

 

نُشر لأول مرة في 10 فبراير 2022. تم تعديله في 10 فبراير 20.05 EET - التنسيق.