სტუბი „მკითხველის რეჟიმის“ მიღმა მანქანური სწავლით - Unite.AI
დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

"მკითხველის რეჟიმის" მიღმა მანქანური სწავლებით

mm
განახლებულია on

სამხრეთ კორეელმა მკვლევარებმა გამოიყენეს მანქანური სწავლება ვებ გვერდებიდან რეალური შინაარსის ამოღების გაუმჯობესებული მეთოდის შესამუშავებლად, რათა ვებ გვერდის „ავეჯი“ - როგორიცაა გვერდითი ზოლები, ქვედა კოლონტიტული და ნავიგაციის სათაურები, ასევე სარეკლამო ბლოკები - გაქრეს მკითხველისთვის. .

მიუხედავად იმისა, რომ ასეთი ფუნქციონალობა ან ჩაშენებულია ყველაზე პოპულარულ ვებ ბრაუზერებში, ან სხვაგვარად ადვილად ხელმისაწვდომია გაფართოებებისა და დანამატების საშუალებით, ეს ტექნოლოგიები ეყრდნობა სემანტიკურ ფორმატს, რომელიც შესაძლოა არ იყოს ვებ გვერდზე, ან რომელიც შეიძლება განზრახ დაზიანდეს საიტის მფლობელის მიერ. რათა მკითხველმა არ დამალოს გვერდის „სრული მსუქანი“ გამოცდილება.

ჩვენი ერთ-ერთი ვებ გვერდი „შემცირდა“ Firefox-ის ინტეგრირებული Reader View ფუნქციით.

ჩვენი ერთ-ერთი ვებ გვერდი „შემცირდა“ Firefox-ის ინტეგრირებული Reader View ფუნქციით.

ამის ნაცვლად, ახალი მეთოდი იყენებს ქსელზე დაფუძნებულ სისტემას, რომელიც იმეორებს ვებ გვერდს და აფასებს რამდენად შეესაბამება შინაარსი გვერდის ძირითად მიზანს.

შინაარსის ამოღების მილსადენი ჯერ ყოფს გვერდს ბადედ (ზედა მწკრივად), სანამ შეაფასებს ნაპოვნი შესაბამისი უჯრედების ურთიერთობას სხვა უჯრედებთან (შუაში) და საბოლოოდ აერთიანებს დამტკიცებულ უჯრედებს (ქვედა). წყარო: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

შინაარსის ამოღების მილსადენი ჯერ ყოფს გვერდს ბადედ (ზედა მწკრივად), სანამ შეაფასებს ნაპოვნი შესაბამისი უჯრედების ურთიერთობას სხვა უჯრედებთან (შუაში) და საბოლოოდ აერთიანებს დამტკიცებულ უჯრედებს (ქვედა). წყარო: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

შესაბამისი უჯრედის იდენტიფიცირების შემდეგ, მისი ურთიერთობა ახლომდებარე უჯრედებთან ასევე შეფასდება ინტერპრეტირებულ „ძირითად შინაარსში“ გაერთიანებამდე.

მიდგომის ცენტრალური იდეაა უარი თქვას კოდზე დაფუძნებულ მარკირებაზე, როგორც შესაბამისობის ინდექსზე (მაგ., HTML ტეგები, რომლებიც ჩვეულებრივ აღნიშნავდნენ აბზაცის დასაწყისს, მაგალითად, რომელიც შეიძლება შეიცვალოს ალტერნატიული ტეგებით, რომლებიც „ატყუებენ“ ეკრანის მკითხველს და კომუნალური პროგრამები, როგორიცაა Reader View) და გამოაქვთ შინაარსი მხოლოდ მისი ვიზუალური გარეგნობის საფუძველზე.

მიდგომა, სახელწოდებით Grid-Center-Expand (GCE), მკვლევარებმა გააფართოვეს ღრმა ნერვული ქსელის (DNN) მოდელებში, რომლებიც იყენებენ Google-ს. ტაბნეტი, ინტერპრეტაციული ცხრილის სასწავლო არქიტექტურა.

მიიღეთ წერტილი

ის ქაღალდი სახელდება არ წაიკითხოთ, უბრალოდ შეხედეთ: ძირითადი შინაარსის ამოღება ვებ გვერდებიდან ვიზუალურად აშკარა ფუნქციების გამოყენებით, და მოდის ჰანიანგის უნივერსიტეტის სამი მკვლევარისგან და ერთი კონვერგენციის ტექნოლოგიის ინსტიტუტიდან, ყველა მდებარეობს სეულში.

ვებ გვერდის ძირითადი შინაარსის გაუმჯობესებული მოპოვება პოტენციურად ღირებულია არა მხოლოდ ჩვეულებრივი საბოლოო მომხმარებლისთვის, არამედ მანქანური სისტემებისთვისაც, რომლებსაც ევალებათ დომენის შინაარსის მიღება ან ინდექსირება ბუნებრივი ენის დამუშავების (NLP) და AI-ის სხვა სექტორებისთვის.

როგორც დგას, თუ არარელევანტური შინაარსი შედის ასეთ მოპოვების პროცესებში, შეიძლება საჭირო გახდეს ხელით გაფილტვრა (ან ეტიკეტირება), დიდი ხარჯებით; უარესი, თუ არასასურველი შიგთავსი შედის ძირითად შინაარსთან, ამან შეიძლება გავლენა მოახდინოს ძირითადი შინაარსის ინტერპრეტაციაზე და ტრანსფორმატორისა და დაშიფვრის/დეკოდერის სისტემების შედეგზე, რომლებიც ეყრდნობა სუფთა შინაარსს.

გაუმჯობესებული მეთოდი, მკვლევარები ამტკიცებენ, განსაკუთრებით აუცილებელია, რადგან არსებული მიდგომები ხშირად მარცხდება არაინგლისურ ვებ გვერდებზე.

ფრანგული, იაპონური და რუსული ვებ გვერდები აღინიშნება, როგორც ყველაზე უარესი ქულები წარმატების მაჩვენებლებში ოთხი ყველაზე გავრცელებული „Reader View“ მიდგომისთვის: Mozilla-ს Readability.js; Google-ის DOM Distiller; Web2Text; და ქვაბი.

ფრანგული, იაპონური და რუსული ვებ გვერდები აღინიშნება, როგორც ყველაზე უარესი ქულები წარმატების მაჩვენებლებში ოთხი ყველაზე გავრცელებული „Reader View“ მიდგომისთვის: Mozilla-ს Readability.js; Google-ის DOM Distiller; Web2Text; და ქვაბი.

მონაცემთა ნაკრები და ტრენინგი

მკვლევარებმა შეაგროვეს მონაცემთა ბაზა ინგლისური საკვანძო სიტყვებიდან GoogleTrends-2017 მდე GoogleTrends-2020 მონაცემთა ნაკრები, თუმცა ისინი აკვირდებიან, რომ შედეგების თვალსაზრისით, არ იყო პრაქტიკული განსხვავებები მონაცემთა ორ ნაკრებს შორის.

გარდა ამისა, ავტორებმა შეაგროვეს არაინგლისური საკვანძო სიტყვები სამხრეთ კორეიდან, საფრანგეთიდან, იაპონიიდან, რუსეთიდან, ინდონეზიიდან და საუდის არაბეთიდან. ჩინური საკვანძო სიტყვები დაემატა ა Baidu მონაცემთა ბაზა, რადგან Google Trends-ს არ შეეძლო ჩინური მონაცემების შეთავაზება.

ტესტირება და შედეგები

სისტემის ტესტირებისას ავტორებმა დაადგინეს, რომ ის გთავაზობთ მუშაობის იგივე დონეს, როგორც ბოლოდროინდელ DNN მოდელებს, ამავდროულად უზრუნველყოფს უკეთეს განსახლებას სხვადასხვა ენებისთვის.

მაგალითად, საქვაბე არქიტექტურა, მიუხედავად იმისა, რომ ინარჩუნებს კარგ შესრულებას შესაბამისი შინაარსის მოპოვებაში, ცუდად ეგუება ჩინურ და იაპონურ მონაცემთა ნაკრებებს. Web2Text, ავტორები აღმოაჩენენ, რომ მას აქვს „შედარებით ცუდი შესრულება“ ყველგან, ლინგვისტური მახასიათებლებით, რომლებიც არ არის მრავალენოვანი და არ არის შესაფერისი ვებ გვერდებიდან ცენტრალური შინაარსის ამოსაღებად.

მოზილას კითხვადობა.js აღმოჩნდა, რომ მიაღწია მისაღებ შესრულებას მრავალ ენაზე, მათ შორის ინგლისურში, თუნდაც წესებზე დაფუძნებული მეთოდით. თუმცა მკვლევარებმა დაადგინეს, რომ მისი შესრულება მნიშვნელოვნად დაეცა იაპონურ და ფრანგულ მონაცემთა ნაკრებებზე, რაც ხაზს უსვამს კონკრეტული რეგიონის მახასიათებლების მთლიანად წესებზე დაფუძნებული მიდგომებით გაანალიზების მცდელობის შეზღუდვებს.

ამასობაში Google-ის DOM დისტილერი, რომელიც აერთიანებს ევრისტიკისა და მანქანათმცოდნეობის მიდგომებს, აღმოჩნდა, რომ კარგად მუშაობს მთელს დაფაზე.

პროექტის განმავლობაში შემოწმებული მეთოდების შედეგების ცხრილი, მათ შორის მკვლევარების საკუთარი GCE მოდული. უფრო მაღალი რიცხვები უკეთესია.

პროექტის განმავლობაში შემოწმებული მეთოდების შედეგების ცხრილი, მათ შორის მკვლევარების საკუთარი GCE მოდული. უფრო მაღალი რიცხვები უკეთესია.

მკვლევარები ასკვნიან, რომ "GCE-ს არ სჭირდება სწრაფად ცვალებადი ვებგარემოს გათვალისწინება, რადგან ის ეყრდნობა ადამიანის ბუნებას - ჭეშმარიტად გლობალურ და მრავალენოვან მახასიათებლებს".