Anderson 视角
超越“阅读模式”:使用机器学习进行网页内容提取

来自韩国的研究人员使用机器学习开发了一种改进的方法,用于从网页中提取实际内容,使得网页的“家具”(如侧边栏、页脚和导航头部,以及广告块)对读者来说消失了。
虽然这种功能已经内置于大多数流行的网页浏览器中,或者可以通过扩展和插件轻松获得,但这些技术依赖于语义格式,这些格式可能不在网页中存在,或者可能被网站所有者故意破坏,以防止读者隐藏网页的“完整体验”。

使用Firefox的内置阅读模式功能对我们的网页进行“瘦身”处理的示例。
相反,新的方法使用了一个基于网格的系统,该系统遍历网页,评估内容与网页核心目标的相关性。

内容提取管道首先将网页分成网格(上行),然后评估找到的相关单元格与其他单元格的关系(中间),最后合并已批准的单元格(下)。来源:https://arxiv.org/ftp/arxiv/papers/2110/2110.14164.pdf[/em>
一旦识别出相关单元格,其与附近单元格的关系也会被评估,然后将其合并到解释的“核心内容”中。
这种方法的核心思想是放弃基于代码的标记作为相关性索引(例如,HTML标签通常用于表示段落的开始,可以被替换为其他标签以“欺骗”屏幕阅读器和类似Reader View的实用程序),并仅根据内容的视觉外观来推断内容。
这种方法,被称为Grid-Center-Expand(GCE),已被研究人员扩展到深度神经网络(DNN)模型中,利用Google的TabNet,一种解释性表格学习架构。
直接进入正题
该论文的标题为《不要读,只要看:使用视觉上明显的特征从网页中提取主要内容》,由韩国汉阳大学的三位研究人员和位于首尔的融合技术研究所的一位研究人员共同撰写。
改进的网页核心内容提取对于不仅仅是普通最终用户来说是有价值的,也对于被任务处理或索引域内容以用于自然语言处理(NLP)和人工智能(AI)其他领域的机器系统来说也是有价值的。
如果非相关内容被包含在此类提取过程中,它可能需要手动过滤(或标记),这将带来巨大的成本;更糟糕的是,如果不需要的内容与核心内容一起包含,它可能会影响核心内容的解释,以及依赖干净内容的变换器和编码器/解码器系统的结果。
研究人员认为,改进的方法尤其必要,因为现有的方法通常无法处理非英语网页。

法语、日语和俄语网页被列为四种最常见的“阅读模式”方法中成功率最低的网页:Mozilla的Readability.js;Google的DOM Distiller;Web2Text;和Boilernet。
数据集和训练
研究人员从GoogleTrends-2017和GoogleTrends-2020数据集中编译了数据集材料,尽管他们观察到,在结果方面,两个数据集之间没有实际差异。
此外,作者从韩国、法国、日本、俄罗斯、印度尼西亚和沙特阿拉伯收集了非英语关键词。他们还从百度数据集中添加了中文关键词,因为Google Trends无法提供中文数据。
测试和结果
在测试系统时,作者发现它提供了与最近的DNN模型相同的性能水平,同时为更广泛的语言提供了更好的支持。
例如,Boilernet架构虽然在提取相关内容方面保持良好的性能,但在处理中文和日文数据集时适应性较差,而Web2Text的作者发现其“整体性能较差”,其语言特征不具备多语言特性,并不适合从网页中提取核心内容。
Mozilla的Readbility.js被发现在多种语言(包括英语)中都能实现可接受的性能,尽管研究人员发现其在日语和法语数据集上的性能明显下降,这突出了仅使用基于规则的方法来解析特定区域的特征的局限性。
同时,Google的DOM Distiller,它结合了启发式和机器学习方法,被发现在各个方面都表现良好。
研究人员得出结论,GCE不需要跟上迅速变化的网络环境,因为它依赖于人类的本性——真正的全球和多语言特征。













