Mesterséges Intelligencia
Az „Olvasó módon” túl a gépi tanulással
Dél-koreai kutatók gépi tanulás segítségével fejlesztettek ki egy továbbfejlesztett módszert a tényleges tartalom weboldalakról való kinyerésére, így a weboldalak „bútorai” – például oldalsávok, láblécek és navigációs fejlécek, valamint hirdetési blokkok – eltűnnek az olvasó számára. .
Bár az ilyen funkciók vagy be vannak építve a legtöbb népszerű webböngészőbe, vagy könnyen elérhető bővítményeken és beépülő modulokon keresztül, ezek a technológiák olyan szemantikai formázásra támaszkodnak, amely esetleg nem található meg a weboldalon, vagy amelyet a webhely tulajdonosa szándékosan veszélyeztetett. annak elkerülése érdekében, hogy az olvasó elrejtse az oldal „teljes zsíros” élményét.
Ehelyett az új módszer egy rács alapú rendszert használ, amely végigfut a weboldalon, és értékeli, hogy a tartalom mennyire releváns az oldal alapvető céljához.
A megfelelő cella azonosítása után a közeli cellákkal való kapcsolata is kiértékelésre kerül, mielőtt egyesítené az értelmezett „magtartalommal”.
A megközelítés központi gondolata az, hogy elhagyjuk a kódalapú jelölést mint relevanciaindexet (azaz olyan HTML-címkéket, amelyek általában egy bekezdés elejét jelölik, amelyek helyettesíthetők alternatív címkékkel, amelyek „becsapják” a képernyőolvasókat és segédprogramok, mint például a Reader View), és kizárólag annak vizuális megjelenése alapján következtetnek a tartalomra.
A Grid-Center-Expand (GCE) elnevezésű megközelítést a kutatók kiterjesztették a mély ideghálózati (DNN) modellekre, amelyek kihasználják a Google TabNet, egy értelmező táblázatos tanulási architektúra.
Térjen a tárgyra
A papír címet viseli Ne olvasson, csak nézzen: Fő tartalom kinyerése a weboldalakról vizuálisan látható funkciók segítségével, és a Hanyang Egyetem három kutatójától és egy a Konvergencia Technológiai Intézettől származik, mindegyik Szöulban található.
A weboldal alapvető tartalmának továbbfejlesztett kinyerése potenciálisan értékes nem csak az alkalmi végfelhasználók számára, hanem olyan gépi rendszerek számára is, amelyek a természetes nyelvi feldolgozás (NLP) és a mesterséges intelligencia más szektoraiban a domain tartalom feldolgozásával vagy indexelésével foglalkoznak.
Jelenlegi állapotában, ha nem releváns tartalom kerül bele az ilyen kinyerési folyamatokba, akkor azt manuálisan kell szűrni (vagy címkézni), ami nagy költséggel jár; ami még rosszabb, ha a nem kívánt tartalom szerepel a magtartalomban, az befolyásolhatja a magtartalom értelmezését, valamint a tiszta tartalomra támaszkodó transzformátor és kódoló/dekódoló rendszerek kimenetelét.
A kutatók szerint egy továbbfejlesztett módszerre különösen azért van szükség, mert a meglévő megközelítések gyakran kudarcot vallanak a nem angol weboldalak esetében.
Adatkészletek és képzés
A kutatók angol kulcsszavakból állítottak össze adatkészlet-anyagot a GoogleTrends-2017 és a GoogleTrends-2020 adatkészletet, bár megfigyelték, hogy az eredményeket tekintve nem volt gyakorlati különbség a két adatkészlet között.
Ezenkívül a szerzők nem angol nyelvű kulcsszavakat gyűjtöttek Dél-Koreából, Franciaországból, Japánból, Oroszországból, Indonéziából és Szaúd-Arábiából. A kínai kulcsszavakat a Baidu adatkészlet, mivel a Google Trends nem tudott kínai adatokat kínálni.
Vizsgálat és eredmények
A rendszer tesztelése során a szerzők azt találták, hogy ugyanolyan szintű teljesítményt nyújt, mint a legújabb DNN-modellek, miközben jobb helyet biztosít a nyelvek szélesebb választékához.
Például a Boilernet az architektúra, miközben jó teljesítményt nyújt a megfelelő tartalom kinyerésében, rosszul alkalmazkodik a kínai és japán adatkészletekhez, míg Web2Text, a szerzők szerint „viszonylag gyenge teljesítményű” mindenütt, nyelvi jellemzői nem többnyelvűek, és nem alkalmasak a weboldalak központi tartalom kinyerésére.
A Moziláé Olvashatóság.js Elfogadható teljesítményt ért el több nyelven, beleértve az angolt is, még szabályalapú módszerként is. A kutatók azonban azt találták, hogy teljesítménye jelentősen csökkent a japán és a francia adatkészleteken, rávilágítva arra, hogy egy adott régió jellemzőit teljes mértékben szabályalapú megközelítésekkel próbálják elemezni.
Eközben a Googleé DOM lepárló, amely a heurisztikát és a gépi tanulási megközelítéseket ötvözi, általánosságban jól teljesít.
A kutatók arra a következtetésre jutnak "A GCE-nek nem kell lépést tartania a gyorsan változó webes környezettel, mert az emberi természetre támaszkodik – valóban globális és többnyelvű szolgáltatások".