思想领袖

理解混乱:LLM在非结构化数据提取中的作用

mm

最近的硬件进步,例如Nvidia H100 GPU,显著增强了计算能力。凭借九倍的Nvidia A100速度,这些GPU在处理深度学习工作负载方面表现出色。这种进步促进了生成式AI在自然语言处理(NLP)和计算机视觉中的商业应用,使得自动化和智能数据提取成为可能。企业现在可以轻松地将非结构化数据转化为有价值的见解,这标志着技术集成的一个重大飞跃。

传统的数据提取方法

手动数据输入

令人惊讶的是,许多公司仍然依赖手动数据输入,尽管有更先进的技术可用。这种方法涉及直接将信息手动输入到目标系统中。它通常更容易采用,因为其初始成本较低。然而,手动数据输入不仅枯燥且耗时,还容易出错。另外,它在处理敏感数据时存在安全风险,使其在自动化和数字安全时代成为一个不太理想的选择。

光学字符识别(OCR)

OCR技术,可以将图像和手写内容转换为机器可读数据,提供了一个更快、更具成本效益的解决方案,用于数据提取。然而,其质量可能不可靠。例如,字符“S”可能被误解为“8”,反之亦然。

OCR的性能受到输入数据的复杂性和特征的显著影响;它可以很好地处理高分辨率的扫描图像,不受方向倾斜、水印或覆盖等问题的影响。然而,它在处理手写文本时遇到了挑战,特别是当视觉效果复杂或难以处理时。可能需要对文本输入进行适应以获得更好的结果。市场上的数据提取工具通常使用OCR作为基础技术,并添加多层后处理以提高提取数据的准确性。然而,这些解决方案无法保证100%的准确结果。

文本模式匹配

文本模式匹配是一种使用预定义规则或模式来识别和提取文本中特定信息的方法。它比其他方法更快,并且具有更高的投资回报率。它在所有复杂性水平上都有效,并且可以实现100%的准确率,用于具有类似布局的文件。

然而,其在词汇上的僵化可能会限制其适应性,需要100%的精确匹配才能成功提取。此外,同义词可能会导致识别等效术语的困难,例如区分“天气”和“气候”。此外,文本模式匹配对上下文敏感,缺乏对不同上下文中多重含义的认识。找到僵化性和适应性之间的平衡仍然是使用这种方法的持续挑战。

命名实体识别(NER)

命名实体识别(NER),一种NLP技术,识别和分类文本中的关键信息。

NER的提取仅限于预定义的实体,如组织名称、位置、个人名称和日期。换句话说,NER系统目前缺乏提取自定义实体的固有能力,这些实体可能特定于某个域或用例。其次,NER对已识别实体相关的关键值的关注没有扩展到从表格中提取数据,限制了其适用于更复杂或结构化数据类型的适用性。

随着组织处理越来越多的非结构化数据,这些挑战凸显了对综合和可扩展的提取方法的需求。

使用LLM解锁非结构化数据

利用大型语言模型(LLM)进行非结构化数据提取是一个具有独特优势的有吸引力的解决方案,解决了关键挑战。

上下文感知数据提取

LLM具有强大的上下文理解能力,通过在大型数据集上的广泛训练而形成。它们超越表面并理解上下文细微差别的能力使其在处理各种信息提取任务中具有价值。例如,当被要求提取天气值时,它们捕获预期信息并考虑相关元素,如气候值,轻松地整合同义词和语义。这一高级的理解能力使LLM成为数据提取领域中动态且适应性强的选择。

利用并行处理能力

LLM使用并行处理,使任务更快、更高效。与顺序模型不同,LLM优化资源分配,从而加快数据提取任务的速度。这提高了速度并有助于提取过程的整体性能。

适应多种数据类型

虽然像循环神经网络(RNN)这样的某些模型仅限于特定的序列,但LLM可以处理非序列特定的数据,轻松适应多样化的句子结构。这种多样性涵盖了多种数据形式,例如表格和图像。

增强处理管道

LLM的使用标志着自动化预处理和后处理阶段的显著转变。LLM通过自动化提取过程减少了对手动努力的需求,简化了非结构化数据的处理。它们在多样化数据集上的广泛训练使其能够识别传统方法无法识别的模式和相关性。

该生成式AI管道图表明了像BERT、GPT和OPT这样的模型在数据提取中的应用。这些LLM可以执行各种NLP操作,包括数据提取。通常,生成式AI模型提供一个提示,描述所需的数据,随后的响应包含提取的数据。例如,像“从此购买订单中提取所有供应商的名称”这样的提示可以产生一个包含所有供应商名称的响应。随后,提取的数据可以被解析并加载到数据库表或平面文件中,从而实现无缝集成到组织工作流中。

AI框架的演变:从RNN到Transformers的现代数据提取

生成式AI在编码器-解码器框架中运行,具有两个协作神经网络。编码器处理输入数据,将基本特征压缩到“上下文向量”中。然后解码器使用此向量执行生成任务,如语言翻译。这种架构,利用神经网络如RNN和Transformers,在机器翻译、图像生成、语音合成和数据实体提取等领域具有应用。这些网络擅长于建模数据序列中的复杂关系和依赖性。

循环神经网络

循环神经网络(RNN)被设计用于处理序列任务,如翻译和摘要,且在某些情况下表现出色。然而,它们在涉及长距离依赖的任务中难以实现高精度。

RNN在从句子中提取关键值对方面表现出色,但在处理表格结构时遇到了困难。解决这一问题需要仔细考虑序列和位置放置,需要专门的方法来优化表格中的数据提取。然而,它们的采用受到低投资回报率的限制,即使在大型数据集上进行训练后,在大多数文本处理任务中也表现不佳。

长短期记忆网络

长短期记忆(LSTM)网络作为解决RNN局限性的解决方案出现,特别是通过选择性更新和遗忘机制。与RNN类似,LSTM在从句子中提取关键值对方面表现出色。然而,它们在处理表格结构时面临类似的挑战,需要对序列和位置元素进行战略性考虑。

GPU首先在2012年被用于深度学习,以开发著名的AlexNet CNN模型。随后,一些RNN也使用GPU进行了训练,但结果并不理想。如今,尽管GPU可用,这些模型基本上已经过时,并被基于Transformer的LLM所取代。

Transformer – 注意力机制

Transformer的引入,特别是在开创性的“注意力就是你需要的”论文(2017)中,通过提出“Transformer”架构,彻底改变了NLP领域。这一架构实现了并行计算,并且擅长于捕捉长距离依赖,开启了语言模型的新可能性。像GPT、BERT和OPT这样的LLM已经利用了Transformer技术。Transformer的核心是“注意力”机制,这是提高序列到序列数据处理性能的关键因素。

Transformer中的“注意力”机制计算基于“查询”(问题提示)和“键”(模型对每个单词的理解)之间的兼容性而得出的加权和。这种方法在序列生成期间实现了专注的注意力,确保精确的提取。Transformer中的两个关键组件是自注意力,捕捉输入序列中单词之间的重要性,以及多头注意力,实现特定关系的多样化注意力模式。

在发票提取的背景下,自注意力识别之前提到的日期的相关性以提取付款金额,而多头注意力则独立地关注数字值(金额)和文本模式(供应商名称)。与RNN不同,Transformer没有固有的顺序理解。为了解决这个问题,它们使用位置编码来跟踪每个单词在序列中的位置。这种技术应用于输入和输出嵌入,有助于在文档中识别键和值。

注意力机制和位置编码的组合对于大型语言模型识别结构为表格的能力至关重要,考虑到其内容、间距和文本标记。这种能力使其与其他非结构化数据提取技术区别开来。

当前趋势和发展

AI领域正在展开,带来有前途的趋势和发展,重塑我们从非结构化数据中提取信息的方式。让我们深入探讨塑造该领域未来的关键方面。我们来探讨一下当前的主要趋势和发展。

大型语言模型(LLM)的进步

生成式AI正在经历一个转型阶段,LLM在处理复杂和多样化的数据集以进行非结构化数据提取方面处于中心位置。两种值得注意的策略正在推动这些进步:

  1. 多模态学习:LLM正在通过同时处理各种类型的数据(包括文本、图像和音频)来扩展其能力。这种发展提高了它们从多样化来源提取有价值信息的能力,增加了它们在非结构化数据提取中的实用性。研究人员正在探索高效地使用这些模型的方法,旨在消除对GPU的需求,并使大型模型能够在有限的资源下运行。
  1. RAG应用:检索增强生成(RAG)是一个新兴趋势,它将大型预训练语言模型与外部搜索机制相结合,以增强其能力。通过在生成过程中访问大量文档,RAG将基本语言模型转变为适用于商业和消费者应用的动态工具。

评估LLM的性能

评估LLM的性能带来了一个挑战,通过采取战略方法,结合特定任务的指标和创新评估方法。该领域的关键发展包括:

  1. 细化指标:针对信息提取任务的定制评估指标正在出现。精度、召回率和F1分数等指标在实体提取等任务中尤其有效。
  1. 人工评估:人工评估与自动化指标并行进行,确保LLM的全面评估。将自动化指标与人工判断相结合,混合评估方法提供了对上下文正确性和相关性的细致理解。

图像和文档处理

多模态LLM已经完全取代了OCR。用户可以将图像和文档中的扫描文本转换为机器可读文本,并且可以使用基于视觉的模块直接从视觉内容中识别和提取信息。

从链接和网站中提取数据

LLM正在演变,以满足从网站和网页链接中提取数据的日益增长的需求。这些模型越来越擅长网页抓取,将网页数据转换为结构化格式。这种趋势对于新闻聚合、电子商务数据收集和竞争情报等任务具有不可估量的价值,增强了对网页的上下文理解,并从网页中提取关系数据。

生成式AI中的小巨人崛起

2023年上半年,人们专注于开发基于“越大越好”假设的巨型语言模型。然而,最近的结果表明,小型模型,如TinyLlama和Dolly-v2-3B,参数少于30亿,在推理和总结等任务中表现出色,赢得了“小巨人”的称号。这些模型使用的计算资源和存储较少,使得AI更容易被小型公司所采用,无需昂贵的GPU。

结论

早期的生成式AI模型,包括生成对抗网络(GAN)和变分自编码器(VAE),为图像数据的管理引入了新方法。然而,真正的突破来自于基于Transformer的大型语言模型。这些模型在非结构化数据处理方面超越了所有先前的技术,得益于其编码器-解码器结构、自注意力和多头注意力机制,使其对语言有深刻的理解,并赋予其类似人类的推理能力。

虽然生成式AI为从报告中提取文本数据提供了一个有前途的起点,但这种方法的可扩展性是有限的。初始步骤通常涉及OCR处理,这可能会导致错误,并且从报告中的图像中提取文本仍然是一个挑战。

相比之下,报告中的图像内文本提取是一个单独的挑战。像多模态数据处理和GPT-4、Claud3、Gemini中的令牌限制扩展这样的解决方案为我们提供了一个有前途的解决方案。然而,需要注意的是,这些模型仅通过API可访问。虽然使用API从文档中提取数据既有效又具有成本效益,但也带来了自己的限制,例如延迟、有限的控制和安全风险。

更安全、更可定制的解决方案在于对内部LLM进行微调。这种方法不仅缓解了数据隐私和安全问题,还增强了对数据提取过程的控制。通过对文档布局理解和基于上下文的文本含义进行微调,提供了一种强大的方法来提取关键值对和行项。利用零次学习和少次学习,微调后的模型可以适应多种文档布局,确保在各个领域中高效、准确地进行非结构化数据提取。

Jay Mishra, COO at Astera, 一家领先的无代码数据解决方案提供商,是一位具有20+年经验的资深数据和分析领导者,专注于通过AI驱动的数据解决方案推动变革战略,赋予组织以数据为驱动的能力。