Свяжитесь с нами:

Помимо «режима чтения» с машинным обучением

Искусственный интеллект

Помимо «режима чтения» с машинным обучением

mm

Исследователи из Южной Кореи использовали машинное обучение для разработки усовершенствованного метода извлечения фактического контента из веб-страниц, благодаря чему «мебель» веб-страницы, такая как боковые панели, нижние колонтитулы и заголовки навигации, а также рекламные блоки, исчезает для читателя.

Хотя такая функциональность либо встроена в большинство популярных веб-браузеров, либо легко доступна через расширения и плагины, эти технологии основаны на семантическом форматировании, которое может отсутствовать на веб-странице или которое могло быть намеренно скомпрометировано владельцем сайта, чтобы не дать читателю скрыть «полный» опыт использования страницы.

Одна из наших собственных веб-страниц «похудела» благодаря встроенной в Firefox функции Reader View.

Одна из наших веб-страниц «уменьшена» с помощью встроенной функции Firefox Reader View.

Вместо этого новый метод использует систему на основе сетки, которая перебирает веб-страницу, оценивая, насколько контент соответствует основной цели страницы.

Конвейер извлечения контента сначала делит страницу на сетку (верхняя строка), затем оценивает взаимосвязь найденных подходящих ячеек с другими ячейками (средняя) и, наконец, объединяет утвержденные ячейки (нижняя). Источник: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

Конвейер извлечения контента сначала делит страницу на сетку (верхняя строка), затем оценивает взаимосвязь найденных подходящих ячеек с другими ячейками (средняя) и, наконец, объединяет утвержденные ячейки (нижняя). Источник: https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf

После того как соответствующая ячейка идентифицирована, ее связь с соседними ячейками также оценивается, прежде чем она будет объединена с интерпретируемым «основным содержимым».

Основная идея подхода заключается в отказе от разметки на основе кода как показателя релевантности (например, от тегов HTML, которые обычно обозначают начало абзаца и которые можно заменить альтернативными тегами, «обманывающими» программы чтения с экрана и утилиты, такие как Reader View), и в выводе содержимого исключительно на основе его визуального представления.

Подход, называемый Grid-Center-Expand (GCE), был расширен исследователями до моделей глубоких нейронных сетей (DNN), которые используют возможности Google Табнет, интерпретируемая табличная архитектура обучения.

Перейти к сути

Команда статье называется Не читайте, просто смотрите: извлечение основного контента с веб-страниц с использованием визуально очевидных функцийи исходит от трех исследователей из Университета Ханьян и одного из Института конвергентных технологий, расположенных в Сеуле.

Улучшенное извлечение основного содержимого веб-страниц потенциально ценно не только для обычного конечного пользователя, но и для машинных систем, которым поручено принимать или индексировать контент домена для целей обработки естественного языка (NLP) и других секторов искусственного интеллекта.

В настоящее время, если нерелевантный контент включается в такие процессы извлечения, может потребоваться его ручная фильтрация (или маркировка) с большими затратами; Хуже того, если нежелательный контент включен в основной контент, это может повлиять на интерпретацию основного контента и на результаты систем преобразования и кодирования/декодирования, которые полагаются на чистый контент.

Исследователи утверждают, что улучшенный метод особенно необходим, потому что существующие подходы часто не работают с неанглоязычными веб-страницами.

Французские, японские и русские веб-страницы отмечены как худшие по показателям успешности для четырех наиболее распространенных подходов «Просмотр для чтения»: Readability.js от Mozilla; DOM Distiller от Google; Веб2Текст; и Бойлернет.

Веб-страницы на французском, японском и русском языках показывают худшие результаты по показателям успешности при использовании четырех наиболее распространенных подходов «Reader View»: Mozilla Readability.js, Google DOM Distiller, Web2Text и Boilernet.

Наборы данных и обучение

Исследователи собрали материал набора данных из английских ключевых слов в GoogleTrends-2017 и GoogleTrends-2020 набор данных, хотя они отмечают, что с точки зрения результатов между двумя наборами данных не было практических различий.

Кроме того, авторы собрали неанглийские ключевые слова из Южной Кореи, Франции, Японии, России, Индонезии и Саудовской Аравии. Ключевые слова на китайском языке были добавлены из Набор данных Baidu, так как Google Trends не может предоставить китайские данные.

Тестирование и результаты

При тестировании системы авторы обнаружили, что она предлагает тот же уровень производительности, что и последние модели DNN, но при этом обеспечивает лучшую совместимость с более широким спектром языков.

Так, например, Бойлернет Архитектура, сохраняя хорошую производительность при извлечении соответствующего контента, плохо адаптируется к китайским и японским наборам данных, в то время как Веб2Текст, как обнаружили авторы, имеет «относительно низкую производительность» во всех отношениях, имеет лингвистические особенности, которые не являются многоязычными, и не подходит для извлечения основного контента из веб-страниц.

Mozilla, Читабельность.js было обнаружено, что достигается приемлемая производительность на нескольких языках, включая английский, даже в качестве метода, основанного на правилах. Однако исследователи обнаружили, что его производительность заметно снизилась на японских и французских наборах данных, что подчеркивает ограничения, связанные с попытками полностью проанализировать характеристики конкретного региона с помощью подходов, основанных на правилах.

Между тем, Google ДОМ Дистиллер, который сочетает в себе подходы эвристики и машинного обучения, показал себя хорошо во всех отношениях.

Таблица результатов для методов, протестированных в ходе проекта, включая собственный модуль исследователей GCE. Чем выше число, тем лучше.

Таблица результатов методов, протестированных в ходе проекта, включая собственный модуль GCE исследователей. Чем выше число, тем лучше.

Исследователи заключают, что «GCE не нужно идти в ногу с быстро меняющейся веб-средой, поскольку он полагается на человеческую природу — по-настоящему глобальные и многоязычные функции»..

 

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai