cung Përtej "Modalitetit të lexuesit" me mësimin e makinerisë - Unite.AI
Lidhu me ne

Inteligjenca artificiale

Përtej "Modalitetit të Lexuesit" me Mësimin e Makinerisë

mm
Përditësuar on

Studiuesit nga Koreja e Jugut kanë përdorur mësimin e makinerisë për të zhvilluar një metodë të përmirësuar për nxjerrjen e përmbajtjes aktuale nga faqet e internetit, në mënyrë që 'mobilja' e një faqeje interneti – të tilla si shiritat anësor, fundet dhe kokat e navigimit, si dhe blloqet e reklamave – të zhduken për lexuesin. .

Megjithëse një funksion i tillë ose është i integruar në shfletuesit më të njohur të uebit, ose është lehtësisht i disponueshëm nëpërmjet shtesave dhe shtojcave, këto teknologji mbështeten në formatimin semantik që mund të mos jetë i pranishëm në faqen e internetit ose që mund të jetë komprometuar qëllimisht nga pronari i faqes në në mënyrë që të parandalohet që lexuesi të fshehë përvojën 'full fat' të faqes.

Një nga faqet tona të internetit 'u hollua' me funksionalitetin integral të Reader View të Firefox-it.

Një nga faqet tona të internetit 'u hollua' me funksionalitetin integral të Reader View të Firefox-it.

Në vend të kësaj, metoda e re përdor një sistem të bazuar në rrjet që përsëritet përmes faqes së internetit, duke vlerësuar se sa e rëndësishme është përmbajtja me qëllimin thelbësor të faqes.

Tubacioni i nxjerrjes së përmbajtjes së pari e ndan faqen në një rrjet (rreshti i sipërm) përpara se të vlerësojë marrëdhënien e qelizave përkatëse të gjetura me qelizat e tjera (në mes) dhe në fund të bashkojë qelizat e miratuara (poshtë). Burimi: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

Tubacioni i nxjerrjes së përmbajtjes së pari e ndan faqen në një rrjet (rreshti i sipërm) përpara se të vlerësojë marrëdhënien e qelizave përkatëse të gjetura me qelizat e tjera (në mes) dhe në fund të bashkojë qelizat e miratuara (poshtë). Burimi: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

Pasi të identifikohet një qelizë përkatëse, marrëdhënia e saj me qelizat e afërta vlerësohet gjithashtu përpara se të shkrihet në "përmbajtjen thelbësore" të interpretuar.

Ideja qendrore e qasjes është braktisja e shënimit të bazuar në kod si një indeks i rëndësisë (p.sh. etiketat HTML që normalisht do të tregonin fillimin e një paragrafi, për shembull, i cili mund të zëvendësohet me etiketa alternative që do të 'mashtrojnë' lexuesit e ekranit dhe shërbime të tilla si Reader View), dhe nxirrni përmbajtjen bazuar vetëm në pamjen e saj vizuale.

Qasja, e quajtur Grid-Center-Expand (GCE), është zgjeruar nga studiuesit në modelet e Rrjetit Neural të Thellë (DNN) që shfrytëzojnë Google TabNet, një arkitekturë e të mësuarit me tabela interpretuese.

Shkoni në pikën

La letër titullohet Mos lexoni, thjesht shikoni: Nxjerrja e përmbajtjes kryesore nga faqet e internetit duke përdorur veçori të dukshme vizualisht, dhe vjen nga tre studiues në Universitetin Hanyang dhe një nga Instituti i Teknologjisë së Konvergjencës, të gjithë të vendosur në Seul.

Nxjerrja e përmirësuar e përmbajtjes bazë të faqes në internet është potencialisht e vlefshme jo vetëm për përdoruesit e fundit të rastësishëm, por edhe për sistemet e makinerive që kanë për detyrë të gëlltisin ose indeksojnë përmbajtjen e domenit për qëllimet e Përpunimit të Gjuhës Natyrore (NLP) dhe sektorëve të tjerë në AI.

Siç qëndron, nëse përmbajtje jo relevante përfshihet në procese të tilla nxjerrjeje, mund të duhet të filtrohet manualisht (ose të etiketohet), me shpenzime të mëdha; më keq, nëse përmbajtja e padëshiruar përfshihet me përmbajtjen bazë, mund të ndikojë në interpretimin e përmbajtjes bazë dhe rezultatin e sistemeve të transformatorit dhe koduesit/dekoderit që mbështeten në përmbajtje të pastër.

Një metodë e përmirësuar, argumentojnë studiuesit, është veçanërisht e nevojshme sepse qasjet ekzistuese shpesh dështojnë me faqet e internetit jo-anglisht.

Faqet e internetit franceze, japoneze dhe ruse janë shënuar si pikët më të këqija në përqindjet e suksesit për katër qasjet më të zakonshme të 'Pamje lexuesish': Readability.js e Mozilla-s; Distiller DOM i Google; Web2Text; dhe Boilernet.

Faqet e internetit franceze, japoneze dhe ruse janë shënuar si pikët më të këqija në përqindjet e suksesit për katër qasjet më të zakonshme të 'Pamje lexuesish': Readability.js e Mozilla-s; Distiller DOM i Google; Web2Text; dhe Boilernet.

Të dhënat dhe Trajnimi

Studiuesit përpiluan materialin e të dhënave nga fjalë kyçe angleze në GoogleTrends-2017 GoogleTrends-2020 të dhënave, megjithëse ata vërejnë se, për sa i përket rezultateve, nuk kishte dallime praktike midis dy grupeve të të dhënave.

Për më tepër, autorët mblodhën fjalë kyçe jo-anglisht nga Koreja e Jugut, Franca, Japonia, Rusia, Indonezia dhe Arabia Saudite. Fjalë kyçe kineze u shtuan nga a Të dhënat e Baidu, pasi Google Trends nuk mund të ofronte të dhëna kineze.

Testimi dhe Rezultatet

Në testimin e sistemit, autorët zbuluan se ai ofron të njëjtin nivel të performancës si modelet e fundit të DNN, ndërsa ofron akomodim më të mirë për një shumëllojshmëri më të gjerë gjuhësh.

Për shembull, Kazan arkitektura, duke ruajtur performancën e mirë në nxjerrjen e përmbajtjes përkatëse, përshtatet dobët me grupet e të dhënave kineze dhe japoneze, ndërsa Web2Text, autorët konstatojnë se ka 'performancë relativisht të dobët' në të gjithë, me veçori gjuhësore që nuk janë shumëgjuhëshe dhe janë të papërshtatshme për nxjerrjen e përmbajtjes qendrore nga faqet e internetit.

i Mozilla-s Lexueshmëria.js u zbulua se arrinte performancë të pranueshme në shumë gjuhë, duke përfshirë anglishten, edhe si një metodë e bazuar në rregulla. Sidoqoftë, studiuesit zbuluan se performanca e tij ra dukshëm në grupet e të dhënave japoneze dhe franceze, duke theksuar kufizimet e përpjekjes për të analizuar karakteristikat e një rajoni specifik tërësisht nga qasjet e bazuara në rregulla.

Ndërkohë të Google Distiller DOM, e cila ndërthur metodat heuristike dhe të mësimit të makinerive, u zbulua se performon mirë në të gjithë bordin.

Tabela e rezultateve për metodat e testuara gjatë projektit, duke përfshirë modulin GCE të vetë studiuesve. Shifrat më të larta janë më të mira.

Tabela e rezultateve për metodat e testuara gjatë projektit, duke përfshirë modulin GCE të vetë studiuesve. Shifrat më të larta janë më të mira.

Studiuesit arrijnë në përfundimin se "GCE nuk ka nevojë të vazhdojë me mjedisin e internetit që ndryshon me shpejtësi, sepse ai mbështetet në natyrën njerëzore - tipare vërtet globale dhe shumëgjuhëshe".

 

Shkrimtar për mësimin e makinerive, inteligjencën artificiale dhe të dhënat e mëdha.
Faqja personale: martinanderson.ai
Kontaktoni: [email mbrojtur]
Twitter: @manders_ai