Líderes de opinión

Dar sentido al desorden: El papel de los LLM en la extracción de datos no estructurados

Published May 29, 2024

Updated April 27, 2026

Jay Mishra, COO at Astera

Los recientes avances en hardware como la GPU Nvidia H100, han mejorado significativamente las capacidades computacionales. Con nueve veces la velocidad de la Nvidia A100, estas GPU destacan en el manejo de cargas de trabajo de aprendizaje profundo. Este avance ha impulsado el uso comercial de la inteligencia artificial generativa en el procesamiento del lenguaje natural (NLP) y la visión por computadora, permitiendo la extracción de datos automatizada e inteligente. Las empresas ahora pueden convertir fácilmente los datos no estructurados en información valiosa, lo que supone un gran avance en la integración de la tecnología.

Métodos tradicionales de extracción de datos

Introducción de datos manual

Sorprendentemente, muchas empresas aún dependen de la introducción de datos manual, a pesar de la disponibilidad de tecnologías más avanzadas. Este método implica la introducción directa de información en el sistema objetivo. Es más fácil de adoptar debido a sus menores costos iniciales. Sin embargo, la introducción de datos manual no solo es tediosa y consume mucho tiempo, sino que también es muy propensa a errores. Además, supone un riesgo de seguridad al manejar datos sensibles, lo que la convierte en una opción menos deseable en la era de la automatización y la seguridad digital.

Reconocimiento óptico de caracteres (OCR)

La tecnología OCR, que convierte imágenes y contenido manuscrito en datos legibles por máquina, ofrece una solución más rápida y rentable para la extracción de datos. Sin embargo, la calidad puede ser poco fiable. Por ejemplo, los caracteres como “S” pueden ser malinterpretados como “8” y viceversa.

El rendimiento de la OCR se ve influenciado significativamente por la complejidad y las características de los datos de entrada; funciona bien con imágenes escaneadas de alta resolución libres de problemas como inclinaciones de orientación, marcas de agua o sobrescritura. Sin embargo, enfrenta desafíos con el texto manuscrito, especialmente cuando los visuales son intrincados o difíciles de procesar. Es posible que se requieran adaptaciones para mejorar los resultados al manejar entradas de texto. Las herramientas de extracción de datos en el mercado con OCR como tecnología base a menudo agregan capas y capas de posprocesamiento para mejorar la precisión de los datos extraídos. Pero estas soluciones no pueden garantizar resultados del 100% precisos.

Coincidencia de patrones de texto

La coincidencia de patrones de texto es un método para identificar y extraer información específica de texto utilizando reglas o patrones predefinidos. Es más rápido y ofrece una mayor relación costo-beneficio que otros métodos. Es efectivo en todos los niveles de complejidad y logra una precisión del 100% para archivos con diseños similares.

Sin embargo, su rigidez en coincidencias palabra por palabra puede limitar la adaptabilidad, requiriendo una coincidencia exacta del 100% para una extracción exitosa. Los desafíos con sinónimos pueden llevar a dificultades para identificar términos equivalentes, como diferenciar “clima” de “tiempo”.Además, la coincidencia de patrones de texto muestra sensibilidad contextual, careciendo de conciencia de múltiples significados en diferentes contextos. Encontrar el equilibrio adecuado entre rigidez y adaptabilidad sigue siendo un desafío constante al emplear este método de manera efectiva.

Reconocimiento de entidades nombradas (NER)

El reconocimiento de entidades nombradas (NER), una técnica de NLP, identifica y categoriza información clave en texto.

Las extracciones de NER se limitan a entidades predefinidas como nombres de organizaciones, ubicaciones, nombres personales y fechas. En otras palabras, los sistemas NER actualmente carecen de la capacidad inherente de extraer entidades personalizadas más allá de este conjunto predefinido, que podría ser específico de un dominio o caso de uso. En segundo lugar, el enfoque de NER en los valores clave asociados con entidades reconocidas no se extiende a la extracción de datos de tablas, lo que limita su aplicabilidad a tipos de datos más complejos o estructurados.

A medida que las organizaciones lidian con cantidades crecientes de datos no estructurados, estos desafíos resaltan la necesidad de un enfoque integral y escalable para las metodologías de extracción.

Desbloquear datos no estructurados con LLM

Aprovechar los modelos de lenguaje grande (LLM) para la extracción de datos no estructurados es una solución convincente con ventajas distintas que abordan desafíos críticos.

Extracción de datos consciente del contexto

Los LLM poseen una sólida comprensión contextual, perfeccionada a través de un entrenamiento extensivo en grandes conjuntos de datos. Su capacidad para ir más allá de la superficie y comprender las complejidades del contexto los hace valiosos en el manejo de diversas tareas de extracción de información. Por ejemplo, cuando se les asigna la tarea de extraer valores climáticos, capturan la información pretendida y consideran elementos relacionados como los valores climáticos, incorporando sin esfuerzo sinónimos y semántica. Este nivel avanzado de comprensión establece a los LLM como una opción dinámica y adaptable en el dominio de la extracción de datos.

Aprovechando las capacidades de procesamiento paralelo

Los LLM utilizan el procesamiento paralelo, lo que hace que las tareas sean más rápidas y eficientes. A diferencia de los modelos secuenciales, los LLM optimizan la distribución de recursos, lo que resulta en una aceleración de las tareas de extracción de datos. Esto mejora la velocidad y contribuye al rendimiento general del proceso de extracción.

Adaptándose a diferentes tipos de datos

Mientras que algunos modelos como las Redes Neuronales Recurrentes (RNN) se limitan a secuencias específicas, los LLM manejan datos no específicos de secuencia, acomodando estructuras de oraciones diversas con facilidad. Esta versatilidad abarca diversas formas de datos como tablas e imágenes.

Mejorando las canalizaciones de procesamiento

El uso de LLM marca un cambio significativo en la automatización de las etapas de preprocesamiento y posprocesamiento. Los LLM reducen la necesidad de esfuerzo manual al automatizar los procesos de extracción con precisión, simplificando el manejo de datos no estructurados. Su entrenamiento extensivo en conjuntos de datos diversos les permite identificar patrones y correlaciones que pasan desapercibidos para los métodos tradicionales.

Fuente: Una canalización de IA generativa

Esta figura de una canalización de IA generativa ilustra la aplicabilidad de modelos como BERT, GPT y OPT en la extracción de datos. Estos LLM pueden realizar diversas operaciones de NLP, incluida la extracción de datos. Normalmente, el modelo de IA generativa proporciona una llamada que describe los datos deseados, y la respuesta resultante contiene los datos extraídos. Por ejemplo, una llamada como “Extraer los nombres de todos los proveedores de esta orden de compra” puede producir una respuesta que contiene todos los nombres de proveedores presentes en el informe semiestructurado. Posteriormente, los datos extraídos se pueden analizar y cargar en una tabla de base de datos o un archivo plano, facilitando una integración sin problemas en los flujos de trabajo de la organización.

Evolución de marcos de IA: De RNN a Transformadores en la extracción de datos moderna

La IA generativa opera dentro de un marco codificador-decodificador que presenta dos redes neuronales colaborativas. El codificador procesa los datos de entrada, condensando las características esenciales en un “Vector de contexto”. Este vector se utiliza luego por el decodificador para tareas generativas, como la traducción de lenguaje. Esta arquitectura, que aprovecha redes neuronales como RNN y Transformadores, encuentra aplicaciones en dominios diversos, incluyendo la traducción de máquina, la generación de imágenes, la síntesis de habla y la extracción de entidades de datos. Estas redes destacan en modelar relaciones y dependencias intrincadas dentro de secuencias de datos.

Redes Neuronales Recurrentes

Redes Neuronales Recurrentes (RNN) han sido diseñadas para abordar tareas de secuencia como la traducción y el resumen, destacando en ciertos contextos. Sin embargo, luchan con la precisión en tareas que involucran dependencias de largo alcance.

Las RNN destacan en extraer pares clave-valor de oraciones, pero enfrentan dificultades con estructuras similares a tablas. Abordar esto requiere una consideración cuidadosa de la secuencia y la colocación posicional, requiriendo enfoques especializados para optimizar la extracción de datos de tablas. Sin embargo, su adopción se vio limitada debido a un bajo ROI y un rendimiento deficiente en la mayoría de las tareas de procesamiento de texto, incluso después de ser entrenadas en grandes volúmenes de datos.

Redes de Memoria de Corto y Largo Plazo

Redes de Memoria de Corto y Largo Plazo (LSTM) surgen como una solución que aborda las limitaciones de las RNN, particularmente a través de un mecanismo de actualización y olvido selectivo. Al igual que las RNN, las LSTM destacan en extraer pares clave-valor de oraciones, pero enfrentan desafíos similares con estructuras similares a tablas, exigiendo una consideración estratégica de la secuencia y los elementos posicionales.

Las GPU se utilizaron por primera vez para el aprendizaje profundo en 2012 para desarrollar el famoso modelo de red neuronal convolucional AlexNet. Posteriormente, algunas RNN también se entrenaron utilizando GPU, aunque no produjeron buenos resultados. Hoy en día, a pesar de la disponibilidad de GPU, estos modelos han caído en desuso y han sido reemplazados por LLM basados en transformadores.

Transformador – Mecanismo de Atención

La introducción de los transformadores, notablemente presentada en el innovador artículo “Attention is All You Need” (2017), revolucionó el NLP al proponer la arquitectura del ‘transformador’. Esta arquitectura permite cálculos paralelos y captura hábilmente las dependencias de largo alcance, desbloqueando nuevas posibilidades para los modelos de lenguaje. Los LLM como GPT, BERT y OPT han aprovechado la tecnología de transformadores. En el corazón de los transformadores se encuentra el mecanismo de “atención”, un contribuyente clave al rendimiento mejorado en el procesamiento de datos de secuencia a secuencia.

El mecanismo de “atención” en los transformadores calcula una suma ponderada de valores basada en la compatibilidad entre la ‘consulta’ (prompt de pregunta) y la ‘clave’ (comprensión del modelo de cada palabra). Este enfoque permite una atención enfocada durante la generación de secuencias, asegurando una extracción precisa. Dos componentes cruciales dentro del mecanismo de atención son la Autoatención, que captura la importancia entre palabras en la secuencia de entrada, y la Atención Multicabeza, que permite patrones de atención diversos para relaciones específicas.

En el contexto de la Extracción de Facturas, la Autoatención reconoce la relevancia de una fecha mencionada anteriormente al extraer cantidades de pago, mientras que la Atención Multicabeza se enfoca de manera independiente en valores numéricos (cantidades) y patrones textuales (nombres de proveedores). A diferencia de las RNN, los transformadores no entienden inherentemente el orden de las palabras. Para abordar esto, utilizan la codificación posicional para rastrear el lugar de cada palabra en una secuencia. Esta técnica se aplica tanto a las incrustaciones de entrada como de salida, ayudando a identificar claves y sus valores correspondientes dentro de un documento.

La combinación de mecanismos de atención y codificaciones posicionales es vital para la capacidad de un modelo de lenguaje grande para reconocer una estructura como tabular, considerando su contenido, espaciado y marcadores de texto. Esta habilidad los distingue de otras técnicas de extracción de datos no estructurados.

Tendencias y desarrollos actuales

El espacio de IA se desarrolla con tendencias y desarrollos prometedores, cambiando la forma en que extraemos información de datos no estructurados. Analicemos los aspectos clave que están dando forma al futuro de este campo.

Avances en Modelos de Lenguaje Grande (LLM)

La inteligencia artificial generativa está experimentando una fase transformadora, con los LLM ocupando un lugar central en el manejo de conjuntos de datos complejos y diversos para la extracción de datos no estructurados. Dos estrategias notables están impulsando estos avances:

Aprendizaje multimodal: Los LLM están expandiendo sus capacidades procesando simultáneamente varios tipos de datos, incluyendo texto, imágenes y audio. Este desarrollo mejora su capacidad para extraer información valiosa de fuentes diversas, aumentando su utilidad en la extracción de datos no estructurados. Investigadores están explorando formas eficientes de utilizar estos modelos, buscando eliminar la necesidad de GPU y permitir la operación de modelos grandes con recursos limitados.

Aplicaciones RAG: Generación mejorada con recuperación (RAG) es una tendencia emergente que combina modelos de lenguaje grande preentrenados con mecanismos de búsqueda externos para mejorar sus capacidades. Al acceder a un vasto corpus de documentos durante el proceso de generación, RAG transforma los modelos de lenguaje básicos en herramientas dinámicas adaptadas tanto para aplicaciones comerciales como de consumo.

Evaluación del rendimiento de LLM

El desafío de evaluar el rendimiento de los LLM se aborda con un enfoque estratégico, incorporando métricas específicas de tarea y metodologías de evaluación innovadoras. Los desarrollos clave en este espacio incluyen:

Métricas afinadas: Métricas de evaluación personalizadas están surgiendo para evaluar la calidad de las tareas de extracción de información. Precisión, recuerdo y puntuación F1 son especialmente efectivas, particularmente en tareas como la extracción de entidades.

Evaluación humana: La evaluación humana sigue siendo fundamental junto con las métricas automatizadas, asegurando una evaluación integral de los LLM. Integrar métricas automatizadas con el juicio humano, los métodos de evaluación híbridos ofrecen una visión matizada de la corrección contextual y la relevancia en la información extraída.

Procesamiento de imágenes y documentos

Los LLM multimodales han reemplazado completamente a la OCR. Los usuarios pueden convertir texto escaneado de imágenes y documentos en texto legible por máquina, con la capacidad de identificar y extraer información directamente del contenido visual utilizando módulos basados en visión.

Extracción de datos de enlaces y sitios web

Los LLM están evolucionando para satisfacer la creciente demanda de extracción de datos de sitios web y enlaces. Estos modelos son cada vez más hábiles en la extracción web, convirtiendo datos de páginas web en formatos estructurados. Esta tendencia es invaluable para tareas como la agregación de noticias, la recopilación de datos de comercio electrónico y la inteligencia competitiva, mejorando la comprensión contextual y extrayendo datos relacionales de la web.

El surgimiento de pequeños gigantes en IA generativa

La primera mitad de 2023 vio un enfoque en el desarrollo de modelos de lenguaje grandes basados en la suposición de “más grande es mejor”. Sin embargo, resultados recientes muestran que modelos más pequeños como TinyLlama y Dolly-v2-3B, con menos de 3 mil millones de parámetros, destacan en tareas como razonamiento y resumen, ganándose el título de “pequeños gigantes”. Estos modelos utilizan menos potencia de cómputo y almacenamiento, haciendo que la IA sea más accesible a empresas más pequeñas sin la necesidad de GPU costosas.

Conclusión

Los primeros modelos de IA generativa, incluyendo redes adversarias generativas (GAN) y autoencoders variacionales (VAE), introdujeron enfoques novedosos para el manejo de datos basados en imágenes. Sin embargo, el verdadero avance llegó con los modelos de lenguaje grande basados en transformadores. Estos modelos superaron todas las técnicas anteriores en el procesamiento de datos no estructurados debido a su estructura codificador-decodificador, autoatención y mecanismos de atención multicabeza, otorgándoles una profunda comprensión del lenguaje y capacidades de razonamiento similares a las humanas.

Mientras que la IA generativa ofrece un comienzo prometedor para la minería de datos textuales de informes, la escalabilidad de estos enfoques es limitada. Los pasos iniciales a menudo involucran el procesamiento OCR, que puede resultar en errores, y persisten desafíos en la extracción de texto de imágenes dentro de los informes.

Mientras que la extracción de texto dentro de las imágenes en los informes es otro desafío. Aceptar soluciones como el procesamiento de datos multimodales y la extensión de límites de token en GPT-4, Claud3, Gemini ofrece un camino prometedor hacia adelante. Sin embargo, es importante tener en cuenta que estos modelos están disponibles únicamente a través de API. Mientras que el uso de API para la extracción de datos de documentos es tanto efectivo como rentable, viene con su propio conjunto de limitaciones como latencia, control limitado y riesgos de seguridad.

Una solución más segura y personalizable radica en afinar un LLM en casa. Este enfoque no solo mitiga las preocupaciones de privacidad y seguridad de los datos, sino que también mejora el control sobre el proceso de extracción de datos. Afinar un LLM para la comprensión del diseño de documentos y para captar el significado del texto basado en su contexto ofrece un método robusto para la extracción de pares clave-valor y artículos de línea. Aprovechando el aprendizaje de cero disparos y pocos disparos, un modelo afinado puede adaptarse a diseños de documentos diversos, asegurando una extracción eficiente y precisa de datos no estructurados en varios dominios.

Related Topics:data extraction thought leaders