人工智能
超越“阅读模式”:使用机器学习

韩国研究人员使用机器学习开发了一种从网页中提取实际内容的改进方法,使得网页的“家具”(如侧边栏、页脚和导航标题,以及广告块)对于读者来说消失了。
虽然此功能已内置于大多数流行的网页浏览器中,或者可以通过扩展和插件轻松获得,但这些技术依赖于语义格式,这些格式可能不在网页中存在,或者可能被网站所有者故意破坏,以防止读者隐藏网页的“完整体验”。

我们自己的网页使用Firefox的内置Reader View功能“瘦身”
相反,新的方法使用一个基于网格的系统,该系统遍历网页,评估内容与网页核心目标的相关性。

内容提取管道首先将页面分成网格(上行)然后评估找到的相关单元格与其他单元格的关系(中间)最后合并批准的单元格(下行) 来源:https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf
一旦识别出相关单元格,其与附近单元格的关系也会被评估,然后合并到解释的“核心内容”中。
这种方法的核心思想是放弃基于代码的标记作为相关性索引(即通常表示段落开始的HTML标签,可以被替换为其他标签,这些标签将“欺骗”屏幕阅读器和Reader View等实用程序),并仅根据其视觉外观推断内容。
这种方法,被称为Grid-Center-Expand(GCE),已被研究人员扩展到深度神经网络(DNN)模型中,利用Google的TabNet,一种解释性表格学习架构。
直入主题
论文的标题为不读,只看:使用视觉明显特征从网页中提取主要内容,来自韩国汉阳大学的三位研究人员和首尔融合技术研究所的一位研究人员。
改进的网页核心内容提取对于机器系统来说可能具有价值,这些系统的任务是为了自然语言处理(NLP)和人工智能(AI)等领域而摄取或索引域内容。
目前,如果非相关内容被包含在此类提取过程中,可能需要手动过滤(或标记),这将花费大量费用;更糟糕的是,如果不需要的内容与核心内容一起包含,可能会影响核心内容的解释,以及依赖于干净内容的变压器和编码器/解码器系统的结果。
研究人员认为,改进的方法尤其必要,因为现有的方法通常会在非英语网页上失败。

法语、日语和俄语网页被列为四种最常见的“阅读模式”方法中成功率最低的网页:Mozilla的Readability.js;Google的DOM Distiller;Web2Text和Boilernet
数据集和训练
研究人员从GoogleTrends-2017和GoogleTrends-2020数据集中编译了数据集材料,尽管他们观察到,在结果方面,两个数据集之间没有实际差异。
此外,作者从韩国、法国、日本、俄罗斯、印度尼西亚和沙特阿拉伯收集了非英语关键词。由于Google Trends无法提供中文数据,因此还添加了来自百度数据集的中文关键词。
测试和结果
在测试系统时,作者发现它提供了与最近的DNN模型相同的性能水平,同时为更广泛的语言提供了更好的适应性。
例如,Boilernet架构虽然在提取相关内容方面保持良好的性能,但对中文和日文数据集适应性较差,而Web2Text,作者发现,其“性能相对较差”,具有非多语言的语言特征,不适合从网页中提取核心内容。
Mozilla的Readbility.js被发现在多种语言(包括英语)中实现了可接受的性能,即使作为基于规则的方法。然而,研究人员发现,其性能在日语和法语数据集上明显下降,突出了试图仅通过基于规则的方法解析特定区域的特征的局限性。
同时,Google的DOM Distiller,它结合了启发式和机器学习方法,被发现在各个方面都表现良好。
研究人员得出结论,“GCE不需要跟上迅速变化的网络环境,因为它依赖于人类的本性——真正的全球和多语言特征”。













