škrbina Onkraj 'načina branja' s strojnim učenjem - Unite.AI
Povežite se z nami

Umetna inteligenca

Onkraj »bralnega načina« s strojnim učenjem

mm
Posodobljeno on

Raziskovalci iz Južne Koreje so s strojnim učenjem razvili izboljšano metodo za pridobivanje dejanske vsebine s spletnih strani, tako da "pohištvo" spletne strani – kot so stranske vrstice, noge in glave navigacije ter oglasni bloki – izgine za bralca. .

Čeprav je taka funkcionalnost vgrajena v večino priljubljenih spletnih brskalnikov ali pa je preprosto dostopna prek razširitev in vtičnikov, se te tehnologije zanašajo na semantično oblikovanje, ki morda ni prisotno na spletni strani ali pa ga je lastnik mesta namerno ogrozil v da bi preprečili, da bi bralec prikril 'polno mastno' izkušnjo strani.

Ena od naših lastnih spletnih strani je "zmanjšana" z Firefoxovo integrirano funkcijo Reader View.

Ena od naših lastnih spletnih strani je "zmanjšana" z Firefoxovo integrirano funkcijo Reader View.

Namesto tega nova metoda uporablja mrežni sistem, ki se ponavlja po spletni strani in ocenjuje, kako pomembna je vsebina za glavni cilj strani.

Cevovod za ekstrakcijo vsebine najprej razdeli stran v mrežo (zgornja vrstica), preden oceni razmerje med najdenimi ustreznimi celicami in drugimi celicami (sredina) in končno združi odobrene celice (spodaj). Vir: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

Cevovod za ekstrakcijo vsebine najprej razdeli stran v mrežo (zgornja vrstica), preden oceni razmerje med najdenimi ustreznimi celicami in drugimi celicami (sredina) in končno združi odobrene celice (spodaj). Vir: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

Ko je ustrezna celica identificirana, se oceni tudi njeno razmerje z bližnjimi celicami, preden se združi v interpretirano "osnovno vsebino".

Osrednja ideja pristopa je opustiti označevanje na osnovi kode kot indeks ustreznosti (tj. oznake HTML, ki bi na primer običajno označevale začetek odstavka, ki jih je mogoče nadomestiti z nadomestnimi oznakami, ki bodo 'pretentale' bralnike zaslona in pripomočki, kot je Reader View), in sklepati o vsebini izključno na podlagi njenega vizualnega videza.

Pristop, imenovan Grid-Center-Expand (GCE), so raziskovalci razširili na modele globoke nevronske mreže (DNN), ki izkoriščajo Googlovo TabNet, interpretativna tabelarična učna arhitektura.

Preidi k bistvu

O papirja je naslovljen Ne berite, samo poglejte: Izvleček glavne vsebine s spletnih strani z uporabo vizualno vidnih funkcij, prihaja pa od treh raziskovalcev na Univerzi Hanyang in enega z Inštituta za konvergenčno tehnologijo, ki se nahajajo v Seulu.

Izboljšano pridobivanje vsebine osrednje spletne strani je potencialno dragoceno ne le za naključnega končnega uporabnika, ampak tudi za strojne sisteme, ki imajo nalogo zaužiti ali indeksirati vsebino domene za namene obdelave naravnega jezika (NLP) in druge sektorje v AI.

V sedanjem stanju, če je nepomembna vsebina vključena v takšne postopke ekstrakcije, jo bo morda treba ročno filtrirati (ali označiti), kar bo stalo zelo drago; Še huje, če je neželena vsebina vključena v osnovno vsebino, bi to lahko vplivalo na interpretacijo osnovne vsebine in na rezultat sistemov transformatorjev in kodirnikov/dekodirnikov, ki se zanašajo na čisto vsebino.

Raziskovalci trdijo, da je izboljšana metoda še posebej potrebna, ker obstoječi pristopi pogosto ne uspejo z neangleškimi spletnimi stranmi.

Francoske, japonske in ruske spletne strani so najslabše ocenjene pri stopnjah uspešnosti za štiri najpogostejše pristope 'Reader View': Mozillin Readability.js; Googlov DOM Distiller; Web2Text; in Boilernet.

Francoske, japonske in ruske spletne strani so najslabše ocenjene pri stopnjah uspešnosti za štiri najpogostejše pristope 'Reader View': Mozillin Readability.js; Googlov DOM Distiller; Web2Text; in Boilernet.

Nabori podatkov in usposabljanje

Raziskovalci so gradivo nabora podatkov sestavili iz angleških ključnih besed v GoogleTrends-2017 in GoogleTrends-2020 nabor podatkov, čeprav opažajo, da v smislu rezultatov ni bilo praktičnih razlik med obema naboroma podatkov.

Poleg tega so avtorji zbrali neangleške ključne besede iz Južne Koreje, Francije, Japonske, Rusije, Indonezije in Savdske Arabije. Kitajske ključne besede so bile dodane iz a Nabor podatkov Baidu, ker Google Trends ni mogel ponuditi kitajskih podatkov.

Testiranje in rezultati

Pri testiranju sistema so avtorji ugotovili, da ponuja enako raven zmogljivosti kot nedavni modeli DNN, hkrati pa zagotavlja boljšo prilagoditev za širšo paleto jezikov.

Na primer, Boilernet arhitektura, medtem ko ohranja dobro zmogljivost pri pridobivanju ustrezne vsebine, se slabo prilagaja kitajskim in japonskim naborom podatkov, medtem ko Web2Text, avtorji ugotavljajo, da ima vsepovsod "razmeroma slabo delovanje", z jezikovnimi značilnostmi, ki niso večjezične in niso primerne za pridobivanje osrednje vsebine s spletnih strani.

Mozillin Berljivost.js Ugotovljeno je bilo, da dosega sprejemljivo zmogljivost v več jezikih, vključno z angleščino, tudi kot metoda, ki temelji na pravilih. Vendar pa so raziskovalci ugotovili, da je njegova uspešnost opazno padla na japonskih in francoskih naborih podatkov, kar je poudarilo omejitve poskusov razčlenitve značilnosti določene regije v celoti s pristopi, ki temeljijo na pravilih.

Medtem Googlov Destilator DOM, ki združuje pristope hevristike in strojnega učenja, je bilo ugotovljeno, da deluje dobro na vseh področjih.

Tabela rezultatov za metode, testirane med projektom, vključno z lastnim modulom GCE raziskovalcev. Višje številke so boljše.

Tabela rezultatov za metode, testirane med projektom, vključno z lastnim modulom GCE raziskovalcev. Višje številke so boljše.

Raziskovalci sklepajo, da »GCE ni treba slediti hitro spreminjajočemu se spletnemu okolju, ker se opira na človeško naravo – resnično globalne in večjezične funkcije.«.