思想领袖
从混乱中理清头绪:LLM在非结构化数据提取中的作用
近期硬件方面的进步,例如英伟达H100 GPU,显著增强了计算能力。凭借九倍于英伟达A100的速度,这些GPU在处理深度学习工作负载方面表现出色。这一进步推动了生成式AI在自然语言处理(NLP)和计算机视觉领域的商业应用,实现了自动化、智能化的数据提取。企业现在可以轻松地将非结构化数据转化为有价值的洞察,这标志着技术集成向前迈出了重要一步。
传统的数据提取方法
手动数据录入
令人惊讶的是,尽管有更先进的技术可用,许多公司仍然依赖手动数据录入。这种方法涉及将信息手工键入目标系统。由于其较低的初始成本,通常更容易采用。然而,手动数据录入不仅单调耗时,而且极易出错。此外,在处理敏感数据时还存在安全风险,使其在自动化和数字安全时代成为一个不那么理想的选择。
光学字符识别(OCR)
OCR技术将图像和手写内容转换为机器可读数据,为数据提取提供了更快、更具成本效益的解决方案。然而,其质量可能不可靠。例如,像”S”这样的字符可能被误读为”8″,反之亦然。
OCR的性能在很大程度上受输入数据的复杂性和特征影响;对于高分辨率、无方向倾斜、水印或覆盖等问题的扫描图像,它表现良好。然而,在处理手写文本,尤其是视觉信息复杂或难以处理时,它会遇到挑战。在处理文本输入时,可能需要进行调整以获得更好的结果。市场上以OCR为基础技术的数据提取工具通常会叠加多层后处理以提高提取数据的准确性。但这些解决方案无法保证100%准确的结果。
文本模式匹配
文本模式匹配是一种使用预定义规则或模式从文本中识别和提取特定信息的方法。它比其他方法更快,投资回报率更高。它在各种复杂程度上都有效,并且对于布局相似的文件可以达到100%的准确率。
然而,其逐字匹配的刚性限制了适应性,需要100%完全匹配才能成功提取。同义词带来的挑战可能导致难以识别等效术语,例如区分”天气”和”气候”。此外,文本模式匹配表现出语境敏感性,缺乏对不同语境下多重含义的认知。在有效运用此方法时,如何在刚性和适应性之间取得平衡仍然是一个持续的挑战。
命名实体识别(NER)
命名实体识别(NER)是一种NLP技术,用于识别和分类文本中的关键信息。
NER的提取范围仅限于预定义的实体,如组织名称、地点、人名和日期。换句话说,NER系统目前缺乏提取超出此预定义集合的自定义实体的固有能力,这些自定义实体可能针对特定领域或用例。其次,NER专注于与已识别实体相关的键值,但不涉及从表格中提取数据,这限制了其对更复杂或结构化数据类型的适用性。
随着组织处理越来越多的非结构化数据,这些挑战凸显了对全面且可扩展的提取方法的需求。
利用LLM解锁非结构化数据
利用大型语言模型(LLM)进行非结构化数据提取是一个引人注目的解决方案,具有解决关键挑战的独特优势。
上下文感知的数据提取
LLM拥有强大的上下文理解能力,这是通过对海量数据集的广泛训练而磨练出来的。它们超越表面、理解上下文细微差别的能力,使其在处理多样化的信息提取任务时极具价值。例如,当被要求提取天气值时,它们不仅能捕获目标信息,还能考虑相关元素如气候值,无缝地结合同义词和语义。这种高级别的理解能力使LLM成为数据提取领域中一个动态且适应性强的选择。
利用并行处理能力
LLM采用并行处理,使任务更快、更高效。与顺序模型不同,LLM优化了资源分配,从而加速了数据提取任务。这不仅提高了速度,也有助于提升提取过程的整体性能。
适应多样化的数据类型
虽然像循环神经网络(RNN)这样的模型仅限于特定序列,但LLM可以处理非序列特定的数据,轻松适应各种句子结构。这种多功能性涵盖了表格和图像等多种数据形式。
增强处理流程
LLM的使用标志着在自动预处理和后处理阶段的一个重大转变。LLM通过准确自动化提取过程,减少了对人工努力的需求,简化了非结构化数据的处理。它们对多样化数据集的广泛训练使其能够识别传统方法可能遗漏的模式和关联。

来源: 关于生成式AI的流程
这张生成式AI流程图展示了BERT、GPT和OPT等模型在数据提取中的适用性。这些LLM可以执行各种NLP操作,包括数据提取。通常,生成式AI模型会提供一个描述所需数据的提示,随后的响应中包含提取的数据。例如,像”从这份采购订单中提取所有供应商的名称”这样的提示,可以产生一个包含半结构化报告中所有供应商名称的响应。随后,提取的数据可以被解析并加载到数据库表或平面文件中,便于无缝集成到组织的工作流程中。
从RNN到Transformer:现代数据提取中AI框架的演进
生成式AI在一个编码器-解码器框架内运行,该框架包含两个协作的神经网络。编码器处理输入数据,将基本特征压缩成”上下文向量”。然后解码器利用这个向量执行生成任务,例如语言翻译。这种利用RNN和Transformer等神经网络的架构,在机器翻译、图像生成、语音合成和数据实体提取等多个领域都有应用。这些网络擅长对数据序列中复杂的关系和依赖关系进行建模。
循环神经网络
循环神经网络(RNN)旨在处理翻译和摘要等序列任务,在某些情境下表现出色。然而,它们在涉及长距离依赖关系的任务中难以保证准确性。
RNN擅长从句子中提取键值对,但在处理类似表格的结构时面临困难。解决这个问题需要仔细考虑序列和位置安排,需要专门的方法来优化从表格中提取数据。然而,它们的采用受到限制,因为即使在大量数据上训练后,其投资回报率低,且在大多数文本处理任务上表现不佳。
长短期记忆网络
长短期记忆(LSTM)网络作为一种解决方案出现,通过选择性更新和遗忘机制,解决了RNN的局限性。与RNN类似,LSTM擅长从句子中提取键值对。然而,它们在处理类似表格的结构时面临类似的挑战,需要对序列和位置元素进行战略性考量。
GPU首次用于深度学习是在2012年,用于开发著名的AlexNet CNN模型。随后,一些RNN也使用GPU进行训练,但效果不佳。如今,尽管有GPU可用,这些模型在很大程度上已被基于Transformer的LLM所取代。
Transformer – 注意力机制
Transformer的引入,特别是在开创性的”Attention is All You Need”论文(2017)<span data-contr












