taló Més enllà del "mode lector" amb aprenentatge automàtic - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

Més enllà del "mode lector" amb aprenentatge automàtic

mm
actualitzat on

Investigadors de Corea del Sud han utilitzat l'aprenentatge automàtic per desenvolupar un mètode millorat per extreure contingut real de pàgines web de manera que el "moble" d'una pàgina web, com ara barres laterals, peus de pàgina i capçaleres de navegació, així com blocs d'anuncis, desaparegui per al lector. .

Tot i que aquesta funcionalitat està integrada als navegadors web més populars, o bé està disponible fàcilment mitjançant extensions i connectors, aquestes tecnologies es basen en un format semàntic que pot no estar present a la pàgina web, o que pot haver estat compromès deliberadament pel propietari del lloc en per tal d'evitar que el lector oculti l'experiència de "greix total" de la pàgina.

Una de les nostres pàgines web es va "aprimar" amb la funcionalitat integral de Reader View de Firefox.

Una de les nostres pàgines web es va "aprimar" amb la funcionalitat integral de Reader View de Firefox.

En canvi, el nou mètode utilitza un sistema basat en quadrícula que itera per la pàgina web, avaluant la pertinència del contingut amb l'objectiu principal de la pàgina.

El canal d'extracció de contingut divideix primer la pàgina en una quadrícula (fila superior) abans d'avaluar la relació de les cel·les pertinents trobades amb altres cel·les (centre) i finalment fusionar les cel·les aprovades (inferior). Font: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

El canal d'extracció de contingut divideix primer la pàgina en una quadrícula (fila superior) abans d'avaluar la relació de les cel·les pertinents trobades amb altres cel·les (centre) i finalment fusionar les cel·les aprovades (inferior). Font: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

Un cop s'identifica una cèl·lula pertinent, també s'avalua la seva relació amb les cel·les properes abans de ser fusionada amb el "contingut bàsic" interpretat.

La idea central de l'enfocament és abandonar el marcatge basat en codi com a índex de rellevància (és a dir, etiquetes HTML que normalment denotarien el començament d'un paràgraf, per exemple, que es poden substituir per etiquetes alternatives que "enganyin" els lectors de pantalla i utilitats com Reader View) i deduir el contingut basant-se únicament en el seu aspecte visual.

L'enfocament, anomenat Grid-Center-Expand (GCE), ha estat ampliat pels investigadors als models de xarxa neuronal profunda (DNN) que exploten els de Google. TabNet, una arquitectura d'aprenentatge tabular interpretativa.

Arriba al punt

El paper es titula No llegiu, només mireu: extracció de contingut principal de pàgines web mitjançant funcions aparents visualment, i prové de tres investigadors de la Universitat de Hanyang i un de l'Institut de Tecnologia de Convergència, tots situats a Seül.

L'extracció millorada del contingut bàsic de la pàgina web és potencialment valuosa no només per a l'usuari final casual, sinó també per als sistemes de màquines que tenen l'encàrrec d'ingerir o indexar contingut de domini amb finalitats de processament del llenguatge natural (NLP) i altres sectors de la IA.

Tal com està, si s'inclou contingut no rellevant en aquests processos d'extracció, és possible que s'hagi de filtrar (o etiquetar) manualment, amb un gran cost; pitjor, si el contingut no desitjat s'inclou amb el contingut bàsic, podria afectar la manera en què s'interpreta el contingut principal i el resultat dels sistemes de transformadors i codificadors/descodificadors que es basen en contingut net.

Un mètode millorat, argumenten els investigadors, és especialment necessari perquè els enfocaments existents solen fallar amb pàgines web que no són en anglès.

Les pàgines web franceses, japoneses i russes tenen la pitjor puntuació en percentatges d'èxit per als quatre enfocaments més habituals de "Vista de lector": Readability.js de Mozilla; DOM Distiller de Google; Web2Text; i Boilernet.

Les pàgines web franceses, japoneses i russes tenen la pitjor puntuació en percentatges d'èxit per als quatre enfocaments més habituals de "Vista de lector": Readability.js de Mozilla; DOM Distiller de Google; Web2Text; i Boilernet.

Conjunts de dades i formació

Els investigadors van recopilar material de conjunt de dades a partir de paraules clau en anglès al GoogleTrends-2017 i GoogleTrends-2020 conjunt de dades, tot i que observen que, pel que fa als resultats, no hi havia diferències pràctiques entre els dos conjunts de dades.

A més, els autors van reunir paraules clau no angleses de Corea del Sud, França, Japó, Rússia, Indonèsia i Aràbia Saudita. Les paraules clau xineses es van afegir des de a Conjunt de dades Baidu, ja que Google Trends no podia oferir dades xineses.

Proves i resultats

En provar el sistema, els autors van trobar que ofereix el mateix nivell de rendiment que els models DNN recents, alhora que ofereix un millor allotjament per a una varietat més àmplia d'idiomes.

Per exemple, la Boilernet L'arquitectura, tot i que manté un bon rendiment en l'extracció de contingut pertinent, s'adapta malament als conjunts de dades xinesos i japonesos, mentre que Web2Text, els autors troben que té "un rendiment relativament baix" a tot arreu, amb característiques lingüístiques que no són multilingües i no són adequades per extreure contingut central de pàgines web.

de Mozilla Readbility.js es va trobar que va aconseguir un rendiment acceptable en diversos idiomes, inclòs l'anglès, fins i tot com a mètode basat en regles. Tanmateix, els investigadors van trobar que el seu rendiment va disminuir notablement en els conjunts de dades japonesos i francesos, posant de manifest les limitacions d'intentar analitzar les característiques d'una regió específica completament mitjançant enfocaments basats en regles.

Mentrestant, el de Google Destil·lador DOM, que combina enfocaments heurístics i d'aprenentatge automàtic, es va trobar que funcionava bé en tots els sentits.

Taula de resultats dels mètodes provats durant el projecte, inclòs el mòdul GCE propi dels investigadors. Els nombres més alts són millors.

Taula de resultats dels mètodes provats durant el projecte, inclòs el mòdul GCE propi dels investigadors. Els nombres més alts són millors.

Els investigadors conclouen que "GCE no necessita estar al dia amb l'entorn web que canvia ràpidament perquè depèn de la naturalesa humana: característiques genuïnament globals i multilingües"..