Kunsmatige Intelligensie
Verder as 'Lesermodus' met masjienleer
Navorsers van Suid-Korea het masjienleer gebruik om 'n verbeterde metode te ontwikkel om werklike inhoud van webblaaie te onttrek sodat die 'meubels' van 'n webblad – soos sidebars, voettekste en navigasie-opskrifte, sowel as advertensieblokke – vir die leser verdwyn .
Alhoewel sulke funksionaliteit óf in die gewildste webblaaiers ingebou is, óf andersins maklik beskikbaar is via uitbreidings en inproppe, maak hierdie tegnologieë staat op semantiese formatering wat dalk nie in die webblad teenwoordig is nie, of wat opsetlik deur die werfeienaar in gevaar gestel is. om te verhoed dat die leser die 'vol vet' ervaring van die bladsy wegsteek.
In plaas daarvan gebruik die nuwe metode 'n rooster-gebaseerde stelsel wat deur die webblad herhaal, en evalueer hoe pertinent die inhoud is vir die kerndoel van die bladsy.
Sodra 'n pertinente sel geïdentifiseer is, word sy verhouding met nabygeleë selle ook geëvalueer voordat dit saamgevoeg word in die geïnterpreteerde 'kerninhoud'.
Die sentrale idee van die benadering is om kode-gebaseerde opmaak as 'n indeks van relevansie te laat vaar (dws HTML-etikette wat byvoorbeeld normaalweg die begin van 'n paragraaf sou aandui, wat vervang kan word deur alternatiewe merkers wat skermlesers sal 'flous' en nutsprogramme soos Reader View), en lei die inhoud af uitsluitlik op die visuele voorkoms daarvan.
Die benadering, genaamd Grid-Center-Expand (GCE), is deur die navorsers uitgebrei na Deep Neural Network (DNN) modelle wat Google se TabNet, 'n interpretatiewe tabelleer-argitektuur.
Kom by die punt uit
Die papier is getiteld Moenie lees nie, kyk net: Onttrekking van hoofinhoud van webblaaie deur gebruik te maak van visueel sigbare kenmerke, en kom van drie navorsers aan die Hanyang Universiteit, en een van die Instituut vir Konvergensie Tegnologie, almal geleë in Seoul.
Verbeterde onttrekking van kernwebbladsy-inhoud is potensieel waardevol nie net vir die toevallige eindgebruiker nie, maar ook vir masjienstelsels wat die taak het om domeininhoud in te neem of te indekseer vir die doeleindes van Natural Language Processing (NLP), en ander sektore in KI.
Soos dit nou staan, as nie-relevante inhoud by sulke onttrekkingsprosesse ingesluit is, moet dit dalk met die hand gefiltreer (of geëtiketteer word), ten duurste; erger nog, as die ongewenste inhoud by die kerninhoud ingesluit is, kan dit beïnvloed hoe die kerninhoud geïnterpreteer word, en die uitkoms van transformator- en enkodeerder/dekodeerderstelsels wat op skoon inhoud staatmaak.
’n Verbeterde metode, meen die navorsers, is veral nodig omdat bestaande benaderings dikwels misluk met nie-Engelse webblaaie.
Datastelle en opleiding
Die navorsers het datastelmateriaal saamgestel uit Engelse sleutelwoorde in die GoogleTrends-2017 en GoogleTrends-2020 datastel, alhoewel hulle waarneem dat, in terme van resultate, daar geen praktiese verskille tussen die twee datastelle was nie.
Daarbenewens het die skrywers nie-Engelse sleutelwoorde van Suid-Korea, Frankryk, Japan, Rusland, Indonesië en Saoedi-Arabië versamel. Chinese sleutelwoorde is bygevoeg vanaf 'n Baidu-datastel, aangesien Google Trends nie Chinese data kon bied nie.
Toets en resultate
In die toetsing van die stelsel het die skrywers gevind dat dit dieselfde vlak van werkverrigting as onlangse DNN-modelle bied, terwyl dit beter akkommodasie bied vir 'n groter verskeidenheid tale.
Byvoorbeeld, die Ketelnet argitektuur, terwyl goeie prestasie in die onttrekking van relevante inhoud gehandhaaf word, pas swak by Chinese en Japannese datastelle aan, terwyl Web2Teks, die skrywers vind, het 'relatief swak werkverrigting' rondom, met linguistiese kenmerke wat nie veeltalig is nie, en nie geskik is om sentrale inhoud van webblaaie te onttrek nie.
Mozilla's Leesbaarheid.js is gevind om aanvaarbare prestasie oor veelvuldige tale, insluitend Engels, te behaal, selfs as 'n reëlgebaseerde metode. Die navorsers het egter gevind dat die prestasie daarvan veral op Japannese en Franse datastelle gedaal het, wat die beperkinge beklemtoon om eienskappe van 'n spesifieke streek heeltemal deur reëlgebaseerde benaderings te ontleed.
Intussen Google s'n DOM Distiller, wat heuristiek en masjienleerbenaderings kombineer, is gevind om oor die algemeen goed te presteer.
Die navorsers kom tot die gevolgtrekking dat 'GCE hoef nie tred te hou met die vinnig veranderende webomgewing nie, want dit maak staat op die menslike natuur - werklik globale en veeltalige kenmerke'.