csonk Túl a „olvasó módon” a gépi tanulással – Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

Az „Olvasó módon” túl a gépi tanulással

mm
korszerűsített on

Dél-koreai kutatók gépi tanulás segítségével fejlesztettek ki egy továbbfejlesztett módszert a tényleges tartalom weboldalakról való kinyerésére, így a weboldalak „bútorai” – például oldalsávok, láblécek és navigációs fejlécek, valamint hirdetési blokkok – eltűnnek az olvasó számára. .

Bár az ilyen funkciók vagy be vannak építve a legtöbb népszerű webböngészőbe, vagy könnyen elérhető bővítményeken és beépülő modulokon keresztül, ezek a technológiák olyan szemantikai formázásra támaszkodnak, amely esetleg nem található meg a weboldalon, vagy amelyet a webhely tulajdonosa szándékosan veszélyeztetett. annak elkerülése érdekében, hogy az olvasó elrejtse az oldal „teljes zsíros” élményét.

Egyik saját weboldalunk „lefogyott” a Firefox beépített Reader View funkciójával.

Egyik saját weboldalunk „lefogyott” a Firefox beépített Reader View funkciójával.

Ehelyett az új módszer egy rács alapú rendszert használ, amely végigfut a weboldalon, és értékeli, hogy a tartalom mennyire releváns az oldal alapvető céljához.

A tartalomkinyerési folyamat először egy rácsra (felső sor) osztja fel az oldalt, mielőtt kiértékeli a talált releváns cellák és más cellák közötti viszonyt (középen), és végül összevonja a jóváhagyott cellákat (alul). Forrás: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

A tartalomkivonási folyamat először egy rácsra (felső sor) osztja fel az oldalt, mielőtt kiértékeli a talált releváns cellák kapcsolatát más cellákkal (középen), és végül összevonja a jóváhagyott cellákat (alul). Forrás: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

A megfelelő cella azonosítása után a közeli cellákkal való kapcsolata is kiértékelésre kerül, mielőtt egyesítené az értelmezett „magtartalommal”.

A megközelítés központi gondolata az, hogy elhagyjuk a kódalapú jelölést mint relevanciaindexet (azaz olyan HTML-címkéket, amelyek általában egy bekezdés elejét jelölik, amelyek helyettesíthetők alternatív címkékkel, amelyek „becsapják” a képernyőolvasókat és segédprogramok, mint például a Reader View), és kizárólag annak vizuális megjelenése alapján következtetnek a tartalomra.

A Grid-Center-Expand (GCE) elnevezésű megközelítést a kutatók kiterjesztették a mély ideghálózati (DNN) modellekre, amelyek kihasználják a Google TabNet, egy értelmező táblázatos tanulási architektúra.

Térjen a tárgyra

A papír címet viseli Ne olvasson, csak nézzen: Fő tartalom kinyerése a weboldalakról vizuálisan látható funkciók segítségével, és a Hanyang Egyetem három kutatójától és egy a Konvergencia Technológiai Intézettől származik, mindegyik Szöulban található.

A weboldal alapvető tartalmának továbbfejlesztett kinyerése potenciálisan értékes nem csak az alkalmi végfelhasználók számára, hanem olyan gépi rendszerek számára is, amelyek a természetes nyelvi feldolgozás (NLP) és a mesterséges intelligencia más szektoraiban a domain tartalom feldolgozásával vagy indexelésével foglalkoznak.

Jelenlegi állapotában, ha nem releváns tartalom kerül bele az ilyen kinyerési folyamatokba, akkor azt manuálisan kell szűrni (vagy címkézni), ami nagy költséggel jár; ami még rosszabb, ha a nem kívánt tartalom szerepel a magtartalomban, az befolyásolhatja a magtartalom értelmezését, valamint a tiszta tartalomra támaszkodó transzformátor és kódoló/dekódoló rendszerek kimenetelét.

A kutatók szerint egy továbbfejlesztett módszerre különösen azért van szükség, mert a meglévő megközelítések gyakran kudarcot vallanak a nem angol weboldalak esetében.

A francia, japán és orosz weboldalak a legrosszabb sikerarányok a négy leggyakoribb „Reader View” megközelítésben: Mozilla Readability.js; Google DOM Distiller; Web2Text; és Boilernet.

A francia, japán és orosz weboldalak a legrosszabb sikerarányok a négy leggyakoribb „Reader View” megközelítésben: Mozilla Readability.js; Google DOM Distiller; Web2Text; és Boilernet.

Adatkészletek és képzés

A kutatók angol kulcsszavakból állítottak össze adatkészlet-anyagot a GoogleTrends-2017 és a GoogleTrends-2020 adatkészletet, bár megfigyelték, hogy az eredményeket tekintve nem volt gyakorlati különbség a két adatkészlet között.

Ezenkívül a szerzők nem angol nyelvű kulcsszavakat gyűjtöttek Dél-Koreából, Franciaországból, Japánból, Oroszországból, Indonéziából és Szaúd-Arábiából. A kínai kulcsszavakat a Baidu adatkészlet, mivel a Google Trends nem tudott kínai adatokat kínálni.

Vizsgálat és eredmények

A rendszer tesztelése során a szerzők azt találták, hogy ugyanolyan szintű teljesítményt nyújt, mint a legújabb DNN-modellek, miközben jobb helyet biztosít a nyelvek szélesebb választékához.

Például a Boilernet az architektúra, miközben jó teljesítményt nyújt a megfelelő tartalom kinyerésében, rosszul alkalmazkodik a kínai és japán adatkészletekhez, míg Web2Text, a szerzők szerint „viszonylag gyenge teljesítményű” mindenütt, nyelvi jellemzői nem többnyelvűek, és nem alkalmasak a weboldalak központi tartalom kinyerésére.

A Moziláé Olvashatóság.js Elfogadható teljesítményt ért el több nyelven, beleértve az angolt is, még szabályalapú módszerként is. A kutatók azonban azt találták, hogy teljesítménye jelentősen csökkent a japán és a francia adatkészleteken, rávilágítva arra, hogy egy adott régió jellemzőit teljes mértékben szabályalapú megközelítésekkel próbálják elemezni.

Eközben a Googleé DOM lepárló, amely a heurisztikát és a gépi tanulási megközelítéseket ötvözi, általánosságban jól teljesít.

A projekt során tesztelt módszerek eredményeinek táblázata, beleértve a kutatók saját GCE modulját is. A magasabb számok jobbak.

A projekt során tesztelt módszerek eredményeinek táblázata, beleértve a kutatók saját GCE modulját is. A magasabb számok jobbak.

A kutatók arra a következtetésre jutnak "A GCE-nek nem kell lépést tartania a gyorsan változó webes környezettel, mert az emberi természetre támaszkodik – valóban globális és többnyelvű szolgáltatások".