Inteligencia artificial

Cómo se mejora el procesamiento del lenguaje a través del modelo BERT de código abierto de Google

Actualizado on 9 de diciembre de 2022

Representaciones de codificadores bidireccionales de transformadores, también conocidos como BERT; es un modelo de entrenamiento que ha mejorado drásticamente la eficiencia y el efecto de los modelos de PNL. Ahora que Google ha hecho que los modelos BERT sean de código abierto, permite la mejora de los modelos NLP en todas las industrias. En el artículo, echamos un vistazo a cómo BERT está convirtiendo a la PNL en una de las soluciones de IA más potentes y útiles del mundo actual.

Aplicación de modelos BERT a la búsqueda

El motor de búsqueda de Google es mundialmente conocido por su capacidad para presentar contenido relevante y han hecho que este programa de procesamiento de lenguaje natural sea de código abierto para el mundo.

La capacidad de un sistema para leer e interpretar el lenguaje natural se vuelve cada vez más vital a medida que el mundo produce exponencialmente nuevos datos. La biblioteca de Google de significados de palabras, frases y capacidad general para presentar contenido relevante es DE CÓDIGO ABIERTO. Más allá del procesamiento del lenguaje natural, su modelo BERT tiene la capacidad de extraer información de grandes cantidades de datos no estructurados y puede aplicarse para crear interfaces de búsqueda para cualquier biblioteca. En este artículo veremos cómo se puede aplicar esta tecnología en el sector energético.

BERT (Representaciones de codificador bidireccional de transformadores) es un enfoque de pre-entrenamiento propuesto por el Lenguaje de IA de Google group, desarrollado para superar un problema común de los primeros modelos de PNL: la falta de suficientes datos de entrenamiento.

Expliquemos, sin entrar en demasiados detalles:

Modelos de entrenamiento

Las tareas de NLP de bajo nivel (p. ej., reconocimiento de entidades nombradas, segmentación de temas) y de alto nivel (p. ej., análisis de sentimientos, reconocimiento de voz) requieren conjuntos de datos anotados específicos de la tarea. Si bien son difíciles de conseguir y costosos de ensamblar, los conjuntos de datos etiquetados desempeñan un papel crucial en el rendimiento de los modelos de redes neuronales superficiales y profundas. Solo se podían lograr resultados de inferencia de alta calidad cuando se disponía de millones o incluso miles de millones de ejemplos de entrenamiento anotados. Y ese fue un problema que hizo que muchas tareas de PNL fueran inabordables. Eso es hasta que se desarrolló BERT.

BERT es un modelo de representación del lenguaje de propósito general, entrenado en grandes corpus de texto sin anotaciones. Cuando el modelo está expuesto a grandes cantidades de contenido de texto, aprende comprender el contexto y las relaciones entre las palabras en una oración. A diferencia de los modelos de aprendizaje anteriores que solo representaban el significado a nivel de palabra (banco significaría lo mismo en "cuenta bancaria" y "banco verde"), BERT realmente se preocupa por el contexto. Es decir, lo que viene antes y después de la palabra en una oración. El contexto resultó ser una de las principales capacidades faltantes de los modelos NLP, con un impacto directo en el rendimiento del modelo. El diseño de un modelo consciente del contexto como BERT es conocido por muchos como el comienzo de una nueva era en la PNL.

El entrenamiento de BERT en grandes cantidades de contenido de texto es una técnica conocida como Pre-entrenamiento. Esto significa que los pesos del modelo se ajustan para tareas generales de comprensión de texto y que se pueden construir modelos más detallados encima. Los autores demostraron la superioridad de esta técnica cuando emplearon modelos basados en BERT en 11 tareas de PNL y lograron resultados de última generación.

Modelos pre-entrenados

Lo mejor es que los modelos BERT preentrenados son de código abierto y están disponibles públicamente. Esto significa que cualquiera puede abordar tareas de PNL y construir sus modelos sobre BERT. Nada puede superar eso, ¿verdad? Oh, espera: esto también significa que los modelos NLP ahora se pueden entrenar (afinar) en conjuntos de datos más pequeños, sin necesidad de entrenar desde cero. El comienzo de una nueva era, de hecho.

Estos modelos preentrenados ayudan a las empresas a reducir el costo y el tiempo de implementación de modelos NLP para uso interno o externo. Michael Alexis, director ejecutivo de la empresa de creación de cultura de equipo virtual, teambuilding.com, enfatiza la eficacia de los modelos de PNL bien entrenados.

“El mayor beneficio de la PNL es la inferencia y el procesamiento escalable y consistente de la información”. – Michael Alexis CEO de teambuilding.com

Michael explica cómo se puede aplicar la PNL a los programas de fomento de la cultura, como los rompehielos o las encuestas. Una empresa puede obtener información valiosa sobre el desempeño de la cultura de la empresa mediante el análisis de las respuestas de los empleados. Esto se logra no solo analizando el texto, sino también analizando la anotación del texto. Esencialmente, el modelo también "lee entre líneas" para sacar inferencias sobre la emoción, el sentimiento y la perspectiva general. BERT puede ayudar en situaciones como esta preentrenando modelos con una base de indicadores que puede activar para descubrir los matices del lenguaje y proporcionar información más precisa.

Mejorando las consultas

La capacidad de modelar el contexto ha convertido a BERT en un héroe de PNL y ha revolucionado la Búsqueda de Google. A continuación se muestra una cita del equipo de productos de Búsqueda de Google y sus experiencias de prueba, mientras ajustaban BERT para comprender la intención detrás de una consulta.

“Estos son algunos de los ejemplos que demuestran la capacidad de BERT para comprender la intención detrás de su búsqueda. Aquí hay una búsqueda de "viajero de Brasil de 2019 a EE. UU. necesita una visa". La palabra "a" y su relación con las otras palabras en la consulta son particularmente importantes para comprender el significado. Se trata de un brasileño que viaja a Estados Unidos y no al revés. Anteriormente, nuestros algoritmos no entendían la importancia de esta conexión y devolvíamos resultados sobre ciudadanos estadounidenses que viajaban a Brasil. Con BERT, Search puede captar este matiz y saber que la palabra muy común "a" realmente importa mucho aquí, y podemos proporcionar un resultado mucho más relevante para esta consulta".
– Comprender las búsquedas mejor que nunca, por Pandu Nayak, Google Fellow y vicepresidente de búsqueda.

Ejemplo de búsqueda BERT, antes y después. Fuente blog

En nuestra última pieza sobre PNL y OCR, hemos ilustrado algunos usos de la PNL en el sector inmobiliario. También hemos mencionado cómo “las herramientas de PNL son herramientas ideales para la extracción de información”. Miremos el sector de la energía y veamos cómo las tecnologías disruptivas de NLP como BERT permiten nuevos casos de uso de aplicaciones.

Los modelos NLP pueden extraer información de grandes cantidades de datos no estructurados

Una forma en que se pueden usar los modelos NLP es para la extracción de información crítica de datos de texto no estructurados. Los correos electrónicos, diarios, notas, registros e informes son ejemplos de fuentes de datos de texto que forman parte de las operaciones diarias de las empresas. Algunos de estos documentos pueden resultar cruciales en los esfuerzos organizacionales para aumentar la eficiencia operativa y reducir los costos.

Cuando se pretende implementar mantenimiento predictivo de aerogeneradores, informes de fallas puede contener información crítica sobre el comportamiento de diferentes componentes. Pero dado que los diferentes fabricantes de turbinas eólicas tienen diferentes normas de recopilación de datos (es decir, los informes de mantenimiento vienen en diferentes formatos e incluso idiomas), la identificación manual de elementos de datos relevantes podría volverse costosa rápidamente para el propietario de la planta. Las herramientas de NLP pueden extraer conceptos, atributos y eventos relevantes del contenido no estructurado. Luego, se puede emplear el análisis de texto para encontrar correlaciones y patrones en diferentes fuentes de datos. Esto brinda a los propietarios de plantas la oportunidad de implementar un mantenimiento predictivo basado en medidas cuantitativas identificadas en sus informes de fallas.

Los modelos NLP pueden proporcionar interfaces de búsqueda de lenguaje natural

De manera similar, los geocientíficos que trabajan para compañías de petróleo y gas generalmente necesitan revisar muchos documentos relacionados con operaciones de perforación anteriores, registros de pozos y datos sísmicos. Dado que dichos documentos también vienen en diferentes formatos y generalmente se distribuyen en varias ubicaciones (tanto físicas como digitales), pierden mucho tiempo buscando la información en los lugares equivocados. Una solución viable en tal caso sería una Interfaz de búsqueda basada en NLP, lo que permitiría a los usuarios buscar datos en lenguaje natural. Luego, un modelo NLP podría correlacionar datos en cientos de documentos y devolver un conjunto de respuestas a la consulta. Luego, los trabajadores pueden validar el resultado en función de su propio conocimiento experto y la retroalimentación mejoraría aún más el modelo.

Sin embargo, también existen consideraciones técnicas para implementar tales modelos. Un aspecto sería que la jerga específica de la industria puede confundir los modelos de aprendizaje tradicionales que no tienen la comprensión semántica adecuada. En segundo lugar, el rendimiento de los modelos puede verse afectado por el tamaño del conjunto de datos de entrenamiento. Aquí es cuando los modelos pre-entrenados como BERT pueden resultar beneficiosos. Las representaciones contextuales pueden modelar el significado apropiado de la palabra y eliminar cualquier confusión causada por términos específicos de la industria. Mediante el uso de modelos previamente entrenados, es posible entrenar la red en conjuntos de datos más pequeños. Esto ahorra tiempo, energía y recursos que, de otro modo, habrían sido necesarios para entrenar desde cero.

¿Qué pasa con su propio negocio?

¿Puede pensar en alguna tarea de NLP que pueda ayudarlo a reducir costos y aumentar la eficiencia operativa?

El Azul Naranja Digital ¡El equipo de ciencia de datos también se complace en modificar BERT para su beneficio!

Hasta la próxima

Las Fuerzas Armadas de EE. UU. se acercan a los vehículos autónomos de combate todoterreno

No Te Lo

La creación más reciente de Quantum Stat es el Model Forge de PNL

jose miramant

Josh Miramant es el CEO y fundador de Azul Naranja Digital, una agencia de ciencia de datos y aprendizaje automático de primer nivel con oficinas en la ciudad de Nueva York y Washington DC. Miramant es un orador popular, futurista y asesor estratégico de negocios y tecnología para empresas y nuevas empresas. Ayuda a las organizaciones a optimizar y automatizar sus negocios, implementar técnicas analíticas basadas en datos y comprender las implicaciones de las nuevas tecnologías, como la inteligencia artificial, los macrodatos y el Internet de las cosas.