заглушки Поза «режимом читання» з машинним навчанням – Unite.AI
Зв'язатися з нами

Штучний Інтелект

Крім «режиму читання» з машинним навчанням

mm
оновлений on

Дослідники з Південної Кореї використали машинне навчання, щоб розробити покращений метод вилучення фактичного вмісту з веб-сторінок, щоб «меблі» веб-сторінки – такі як бічні панелі, нижні колонтитули та заголовки навігації, а також рекламні блоки – зникали для читача. .

Хоча такі функції вбудовані в більшість популярних веб-переглядачів або легко доступні через розширення та плагіни, ці технології покладаються на семантичне форматування, яке може бути відсутнім на веб-сторінці або яке, можливо, було навмисно скомпрометовано власником сайту в щоб запобігти приховуванню читачем «повного» досвіду сторінки.

Одну з наших власних веб-сторінок «зменшили» за допомогою інтегрованої функції Reader View у Firefox.

Одну з наших власних веб-сторінок «зменшили» за допомогою інтегрованої функції Reader View у Firefox.

Замість цього новий метод використовує систему на основі сітки, яка повторює веб-сторінку, оцінюючи, наскільки вміст відповідає основній меті сторінки.

Конвеєр вилучення вмісту спочатку ділить сторінку на сітку (верхній ряд), а потім оцінює зв’язок знайдених відповідних клітинок з іншими клітинками (середина) і, нарешті, об’єднує затверджені клітинки (нижній ряд). Джерело: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

Конвеєр вилучення вмісту спочатку ділить сторінку на сітку (верхній ряд), а потім оцінює зв’язок знайдених відповідних клітинок з іншими клітинками (середина) і, нарешті, об’єднує затверджені клітинки (нижній ряд). Джерело: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

Після ідентифікації відповідної комірки її зв’язок із сусідніми комірками також оцінюється перед об’єднанням у інтерпретований «основний вміст».

Основна ідея цього підходу полягає у відмові від розмітки на основі коду як індексу релевантності (тобто тегів HTML, які зазвичай позначають початок абзацу, наприклад, які можна замінити альтернативними тегами, які «обдурять» зчитувачі екрана та такі утиліти, як Reader View), і виводити вміст виключно на основі його візуального вигляду.

Підхід під назвою Grid-Center-Expand (GCE) був розширений дослідниками до моделей глибокої нейронної мережі (DNN), які використовують Google TabNet, інтерпретаційна таблична навчальна архітектура.

Перейти до суті

Команда папір має титул Не читайте, просто дивіться: вилучення основного вмісту з веб-сторінок за допомогою візуально очевидних функцій, і походить від трьох дослідників з Університету Ханьян і одного з Інституту технології конвергенції, усі розташовані в Сеулі.

Покращене вилучення основного вмісту веб-сторінки є потенційно цінним не лише для звичайного кінцевого користувача, але й для машинних систем, яким доручено приймати або індексувати вміст домену для цілей обробки природної мови (NLP) та інших секторів ШІ.

У поточному стані, якщо нерелевантний вміст включається в такі процеси вилучення, його, можливо, доведеться відфільтрувати вручну (або позначити мітками), що коштує великих витрат; Гірше того, якщо небажаний вміст включено до основного вмісту, це може вплинути на те, як основний вміст інтерпретується, і на результат систем трансформатора та кодера/декодера, які покладаються на чистий вміст.

Удосконалений метод, стверджують дослідники, особливо необхідний, оскільки існуючі підходи часто зазнають невдачі з неанглійськими веб-сторінками.

Французькі, японські та російські веб-сторінки мають найгірші показники успішності для чотирьох найпоширеніших підходів «Reader View»: Mozilla Readability.js; DOM Distiller від Google; Web2Text; і Бойлернет.

Французькі, японські та російські веб-сторінки мають найгірші показники успішності для чотирьох найпоширеніших підходів «Reader View»: Mozilla Readability.js; DOM Distiller від Google; Web2Text; і Бойлернет.

Набори даних і навчання

Дослідники зібрали матеріал набору даних з англійських ключових слів у GoogleTrends-2017 та GoogleTrends-2020 набору даних, хоча вони зауважують, що з точки зору результатів між двома наборами даних не було практичних відмінностей.

Крім того, автори зібрали неанглійські ключові слова з Південної Кореї, Франції, Японії, Росії, Індонезії та Саудівської Аравії. Китайські ключові слова були додані з a Набір даних Baidu, оскільки Google Trends не міг надати дані з Китаю.

Тестування та результати

Під час тестування системи автори виявили, що вона пропонує такий самий рівень продуктивності, як і останні моделі DNN, забезпечуючи при цьому кращу адаптацію для більшої різноманітності мов.

Наприклад, Бойлернет архітектура, зберігаючи хорошу продуктивність у вилученні відповідного вмісту, погано адаптується до китайських і японських наборів даних, тоді як Web2Text, на думку авторів, має «відносно низьку продуктивність» у цілому, з мовними особливостями, які не є багатомовними та непридатними для отримання центрального вмісту з веб-сторінок.

Mozilla Readbility.js Було виявлено, що він досягає прийнятної продуктивності кількома мовами, включаючи англійську, навіть як метод на основі правил. Проте дослідники виявили, що його продуктивність помітно впала на японських і французьких наборах даних, підкреслюючи обмеження спроб аналізу характеристик конкретного регіону виключно за допомогою підходів, заснованих на правилах.

Тим часом Google Дистилятор ДОМ, який поєднує підходи евристики та машинного навчання, показав хорошу ефективність у всіх сферах.

Таблиця результатів для методів, перевірених під час проекту, включаючи власний модуль GCE дослідників. Вищі цифри краще.

Таблиця результатів для методів, перевірених під час проекту, включаючи власний модуль GCE дослідників. Вищі цифри краще.

Дослідники роблять такий висновок «GCE не потрібно йти в ногу зі швидко мінливим веб-середовищем, оскільки воно покладається на людську природу — справді глобальні та багатомовні функції».