talón GPT-3: ¿Aprendizaje de pocas oportunidades para el modelo de lenguaje? - Unir.AI
Contáctanos

Inteligencia artificial

GPT-3: ¿Aprendizaje de pocas oportunidades para el modelo de lenguaje?

mm

Publicado

 on

En los últimos años, la industria de la IA y el aprendizaje automático ha sido testigo de un aumento meteórico en el desarrollo y la aplicación de los sistemas de PNL a medida que los investigadores han podido implementar prácticas de PNL de formas altamente flexibles e independientes de las tareas para la transferencia de tareas posteriores. 

Inicialmente, eran las representaciones de una sola capa las que usaban vectores de palabras y luego se incorporaban a la arquitectura específica de la tarea. A continuación, fue la arquitectura RNN la que utilizó representaciones multicapa y estado contextual para formar mejores representaciones. Y más recientemente, tenemos los modelos de lenguaje de transferencia o modelos recurrentes previamente entrenados que han eliminado por completo la necesidad de arquitecturas para tareas específicas mediante el ajuste de estas redes. 

Los modelos de lenguaje de transferencia han demostrado ser un punto de inflexión importante en la industria de la PNL, ya que han resultado en un enorme progreso en tareas desafiantes como responder preguntas, comprensión lectora o bloques de texto, vinculación textual y mucho más. 

Sin embargo, a pesar de sus ventajas, los modelos de lenguaje de transferencia tienen una limitación importante, ya que requieren un ajuste específico de la tarea o un conjunto de datos específico de la tarea para lograr el rendimiento deseado en una tarea. Además, los modelos de lenguaje de transferencia también requieren que los desarrolladores ajusten los conjuntos de datos a cientos de miles de ejemplos específicos de una tarea en particular. 

No hace falta decir que eliminar el requisito del conjunto de datos específico de la tarea y el ajuste fino específico de la tarea será muy deseable y beneficioso para la industria de la PNL por numerosas razones. 

Problemas con los modelos de lenguaje de transferencia previamente entrenados o los modelos recurrentes existentes

  • Limitar la practicidad y aplicabilidad

En primer lugar, el requisito de un gran conjunto de datos con datos etiquetados para cada tarea limita la aplicabilidad y practicidad de los modelos de lenguaje. Los modelos lingüísticos encuentran sus aplicaciones en una amplia variedad de tareas que van desde generar una historia corta hasta corregir errores gramaticales y generar ejemplos sobre un concepto. A veces, recopilar un gran conjunto de datos supervisados ​​con datos etiquetados es una tarea desafiante, especialmente cuando es necesario repetir el proceso para cada tarea individual. 

  • Explotación de correlaciones espurias en datos de entrenamiento

Las limitaciones y la estrechez de la distribución de entrenamiento, junto con la expresividad del modelo, pueden dar como resultado un crecimiento fundamental en el potencial para explotar correlaciones espurias en los datos de entrenamiento. El potencial para explotar los datos de entrenamiento puede generar problemas durante el ajuste fino y el paradigma de pre-entrenamiento porque los modelos de lenguaje de transferencia están diseñados de manera que absorban una gran cantidad de información durante el pre-entrenamiento. 

Además, el trabajo en modelos anteriores ha indicado que los modelos grandes no dan como resultado una mejor distribución en todas las ocasiones. Además, también se ha indicado que la generalización lograda bajo dicho paradigma puede dar como resultado un rendimiento deficiente, principalmente porque el modelo es muy específico de los datos de entrenamiento y no puede funcionar bien en situaciones más allá del alcance de los datos de entrenamiento. 

  • Comparación con el aprendizaje humano

Finalmente, en comparación con los modelos de lenguaje de transferencia, los humanos no requieren un gran conjunto de datos de entrenamiento cuando se trata de aprender la mayoría de las tareas lingüísticas. Muy a menudo, una directiva breve en el lenguaje natural de una persona o una pequeña demostración de la tarea lingüística es adecuada para que un humano comprenda y realice una tarea lingüística con un cierto nivel de competitividad. 

La capacidad humana para adaptarse tiene numerosas ventajas prácticas, ya que les permite cambiar entre diferentes conjuntos de habilidades o mezclarlos para desempeñarse mejor durante un dialecto, algo que está más allá de las capacidades de los sistemas actuales de PNL. 

Abordar los problemas con el metaaprendizaje y GPT-3

Una posible solución a los desafíos anteriores es el uso de metaaprendizaje, un concepto en ML moderno que permite que un modelo desarrolle un conjunto más amplio y más amplio de habilidades y capacidad para reconocer patrones durante el entrenamiento, y luego usa estas habilidades aprendidas durante la interferencia para adaptarse. rápidamente, o reconocer la tarea requerida. 

Meta Learning se está implementando en la arquitectura del modelo de lenguaje a través de una técnica llamada "aprendizaje en contexto”que utiliza la entrada de texto de un modelo de lenguaje previamente entrenado como especificación de la tarea. En el proceso, el modelo condiciona la instrucción en lenguaje natural, e incluso podría utilizar algunas demostraciones, y luego se espera que el modelo complete el resto de la tarea prediciendo los siguientes pasos. 

El único problema importante con el metaaprendizaje es que, aunque ha mostrado un potencial positivo, sigue siendo inferior al enfoque de ajuste fino en la arquitectura del lenguaje natural y necesita mejoras adicionales para convertirse en un método práctico para superar las tareas del lenguaje. 

Además del metaaprendizaje, otro método que está ganando popularidad es aumentar la capacidad de los modelos de lenguaje transformador. En los últimos años, los modelos de transferencia han visto un aumento sustancial en su capacidad con la RNSS18 modelo con 100 millones de parámetros, el DCLT18 modelo con 300 millones de parámetros, el RWC19 modelo con 1.5 millones de parámetros, el SSP19 modelo con 8 millones de parámetros, el RSR19 modelo con 11 mil millones de parámetros, y el TUR20 modelo con 17 mil millones de parámetros. 

Históricamente, aumentar la capacidad del modelo o aumentar los parámetros ha resultado en mejoras en la síntesis de texto, y ha habido una indicación de que la pérdida de registros, que se correlaciona con las tareas posteriores, también sigue una tendencia suave de mejora con la escala. 

Eso nos lleva al modelo GPT-3 que tiene más de 175 mil millones de parámetros y, cuando se lanzó, era el modelo de lenguaje de transferencia con mayor capacidad. Hablemos ahora del modelo GPT-3. 

Una introducción al modelo GPT-3

El GPT-3 es un modelo de lenguaje autoagresivo con más de 175 mil millones de parámetros que fue lanzado por OpenAI en 2020. GPT-3 también está clasificado como modelo de lenguaje grande que, al igual que su predecesor, el modelo GPT-2 es un modelo de transformador de aprendizaje profundo solo decodificador que utiliza una arquitectura basada en convolución para generar datos textuales. 

El modelo GPT-3 mide sus propias habilidades de aprendizaje de contexto, y el modelo GPT-3 se evalúa en más de dos docenas de conjuntos de datos NLP y múltiples tareas novedosas. Para cada tarea individual, el modelo GPT-3 se evalúa bajo tres condiciones,

  • Pocos disparos de aprendizaje o aprendizaje en contexto: En un aprendizaje de pocas tomas, el modelo GPT-3 permite tantas distribuciones que puedan encajar bien en la ventana de contexto del modelo. 
  • Aprendizaje de una sola vez: En el aprendizaje de una sola vez, el modelo sólo permite una demostración. 
  • Aprendizaje de disparo cero: En el aprendizaje de disparo cero, no hay demostraciones y solo hay instrucción en lenguaje natural que se transmite al modelo. 

En términos generales, el modelo GPT-3 logra el rendimiento deseado en configuraciones de disparo cero y de un disparo, y en la configuración de pocos disparos, supera a los modelos de transferencia de última generación la mayor parte del tiempo. Además, el modelo GPT-3 se desempeña bien en configuraciones de un solo intento y de intento cero en tareas de lenguaje natural diseñadas para probar el razonamiento sobre la marcha, o requiere una atención rápida como usar palabras nuevas después de una oración, descifrar palabras o realizar operaciones aritméticas. operaciones. Por otro lado, cuando se opera en un entorno de pocas tomas, el modelo GPT-3 genera artículos de noticias sintéticos que se asemejan a la escritura humana cuando pasan por evaluadores humanos. 

Modelo GPT-3: Enfoque

El modelo GPT-3 utiliza un enfoque de preentrenamiento convencional que comprende modelo, datos y entrenamiento, y se asemeja al proceso de preentrenamiento seguido por el modelo de lenguaje de transferencia RWC-19. El modelo GPT-3 aumenta el tamaño del modelo, el tamaño del conjunto de datos, la diversidad del conjunto de datos y aumenta la duración del período de entrenamiento. 

El modelo también utiliza un enfoque de aprendizaje en contexto que una vez más se parece al enfoque del modelo RWC-19, pero modifica un poco las cosas al explorar sistemáticamente diferentes configuraciones para patrones de aprendizaje dentro del contexto del conjunto de datos. 

Entonces, comencemos explorando estas configuraciones y evaluemos cómo se desempeña el modelo GTP-3 en diferentes configuraciones. 

Sintonia FINA

Ajustar el modelo ha sido el enfoque convencional en la transferencia. modelos de lenguaje, y este enfoque implica actualizar los pesos de un modelo previamente entrenado entrenando el modelo en un conjunto de datos supervisado que es específico de la tarea deseada, y durante el proceso se utilizan cientos de miles de ejemplos etiquetados. 

El enfoque de ajuste fino es beneficioso porque genera un rendimiento sólido en numerosos puntos de referencia. Por otro lado, la principal limitación del uso del enfoque de ajuste fino es que requiere un conjunto de datos grande y nuevo para cada tarea individual, tiene el potencial de explotar características espurias del conjunto de datos de entrenamiento y puede resultar en una comparación injusta con el desempeño humano. y pobre generalización para fuera de distribución. 

El alcance actual del modelo GPT-3 no implementa el enfoque de ajuste debido a su rendimiento independiente de la tarea, aunque se puede aplicar el ajuste al modelo GPT-3 en el futuro. 

pocos disparos

Few Shot es un término que se refiere al entorno en el que al modelo GPT-3 se le dan algunas demostraciones de la tarea durante la interferencia como acondicionamiento, pero los pesos del modelo no se actualizan. En las pocas configuraciones de toma, el conjunto de datos generalmente tiene un ejemplo con un contexto y una finalización deseada (por ejemplo, una oración en francés y su traducción al inglés). La configuración de pocos disparos le da al modelo K ejemplos de contexto y finalización, y luego proporciona al modelo un contexto final y espera que el modelo proporcione la finalización. 

La principal ventaja de utilizar la configuración de pocos disparos es que reduce significativamente la necesidad de datos específicos de la tarea y también reduce el potencial de aprender una distribución estrecha a partir de un gran conjunto de datos que está ajustado de forma precisa. Por otro lado, la principal desventaja de utilizar el aprendizaje de pocos disparos es que los resultados obtenidos en la configuración de pocos disparos no están a la altura y son significativamente pobres en comparación con otros modelos de última generación que están ajustados. 

One Shot

En la configuración de una sola toma, el modelo recibe solo una demostración y el resto es similar a la configuración de pocas tomas. La razón por la que la configuración de una sola toma es relevante en los modelos de lenguaje de transferencia es porque de las tres configuraciones, una toma es la que mejor se parece a la forma en que las tareas se comunican a los humanos. Esto se debe a que en la mayoría de las tareas, es común hacer una demostración de la tarea, de lo contrario podría resultar difícil comprender el contexto de la tarea. 

tiro cero

En la configuración de disparo cero, no hay demostraciones y el modelo recibe una instrucción en lenguaje natural que describe la tarea. El método de disparo cero es el que ofrece la máxima comodidad, es sólido y también evita correlaciones espurias, pero también es el más desafiante de los tres entornos. Se debe a que, en algunos casos, es difícil incluso para nosotros, los humanos, descubrir el contexto de una tarea sin ver primero una demostración. 

Independientemente, para algunas tareas, la configuración de disparo cero es la que más se asemeja a cómo los humanos realizan tareas de lenguaje natural. 

La figura anterior compara la configuración de pocas tomas, una toma y cero tomas al realizar una tarea de lenguaje natural de tomar una oración en inglés y traducirla al francés. 

GPT-3: Arquitectura modelo

El modelo GPT-3 utiliza la misma arquitectura que la utilizada en el modelo GPT-2 e incluye técnicas de prenormalización, inicialización modificada y tokenización reversible tal como se usaron en el modelo GPT, con la excepción de usar una alternativa. estrategia para patrones de atención dispersa con bandas locales y capas densas alternas en las capas del transformador, similar a Sparse Transformer. 

Para estudiar la dependencia del rendimiento del modelo en el tamaño del modelo, los desarrolladores han entrenado 8 tamaños de modelo diferentes que varían en tres órdenes de magnitud diferentes desde 125 millones hasta más de 175 mil millones de parámetros, el último de ellos llamado modelo GPT-3. . El trabajo anterior relacionado con los modelos LLM ha indicado que el escalado de la pérdida de validación con una cantidad suficiente de datos de entrenamiento debería ser una ley de potencia suave aproximada en función del tamaño. Los modelos de entrenamiento de diferentes tamaños permiten a los desarrolladores probar la hipótesis tanto para las tareas de lenguaje descendente como para la pérdida de validación. 

La figura anterior compara el tamaño y la arquitectura de los 8 modelos diferentes utilizados para el desarrollo de GPT-3. Aquí, n(params) define el número total de patrones entrenables, n(layers) define el número total de capas en el modelo, d(model) define el número de unidades en cada capa del cuello de botella y d(head) define las dimensiones de cada cabezal de atención. La ventana de contexto para cada modelo es la misma con 2048 tokens. 

Además, para minimizar la transferencia de datos entre los nodos, el modelo se divide en las GPU a lo largo de la profundidad y el ancho de las dimensiones. Los parámetros arquitectónicos para cada modelo se eligieron en función de la eficiencia computacional y el equilibrio de carga para maximizar la precisión en el diseño de los modelos en las GPU. 

Conjuntos de datos de entrenamiento

Por lo general, los modelos de lenguaje grandes utilizan conjuntos de datos que se han expandido significativamente con desarrollos recientes y culminan en el conjunto de datos Common Crawl que consta de más de un billón de palabras diferentes. El tamaño del conjunto de datos es lo suficientemente adecuado para entrenar el modelo GPT-3 sin actualizar la misma secuencia varias veces. Sin embargo, los estudios y análisis de rendimiento indican que las versiones ligeramente filtradas o las versiones sin filtrar del conjunto de datos Common Crawl tienen baja calidad en comparación con conjuntos de datos más seleccionados. 

Para abordar el problema de la calidad promedio del conjunto de datos, los desarrolladores tomaron tres pasos para mejorar la calidad del conjunto de datos. 

  1. Los desarrolladores descargaron y filtraron una versión del conjunto de datos Common Crawl basada en un rango similar a los corpus de referencia de alta calidad. 
  2. Los desarrolladores realizaron una duplicación difusa a nivel de documento en todo el conjunto de datos en un intento de preservar la integridad de su conjunto de validación retenido como una medida eficaz del sobreajuste y también para evitar la redundancia. 
  3. Los desarrolladores también agregaron corpus de referencia de alta calidad a los datos de entrenamiento para aumentar el conjunto de datos de rastreo común y aumentar aún más la diversidad del conjunto de datos. 

La siguiente figura muestra la proporción o combinación final de los conjuntos de datos utilizados para entrenar el modelo GPT-3. Los datos de Common Crawl consistían en más de 45 TB de texto sin formato antes del filtrado, que se redujo a 570 GB de datos después del filtrado, un equivalente aproximado a más de 400 mil millones de tokens codificados en pares de bytes. Vale la pena señalar que los conjuntos de datos del entrenamiento que se consideran de mayor calidad se muestrean con más frecuencia en lugar de muestrear el conjunto de datos en proporción a su tamaño. Como resultado, los conjuntos de datos como Books2 y Common Crawl se muestrean menos de una vez durante el entrenamiento, mientras que los otros conjuntos de datos se muestrean varias veces. Permite que el modelo acepte una pequeña cantidad de sobreajuste a cambio de entrenar con datos de entrenamiento de mayor calidad. 

Una preocupación importante con los grandes modelos de lenguaje que están previamente entrenados en una gran cantidad de datos de Internet con la capacidad de memorizar y aprender una gran cantidad de contenido es la posible contaminación de las tareas posteriores al ver su desarrollo o conjuntos de prueba durante la fase previa. proceso de entrenamiento. Para reducir dicha contaminación potencial, los desarrolladores buscaron superposiciones con los conjuntos de prueba y desarrollo de los puntos de referencia estudiados para GPT-3 e intentaron eliminar estas superposiciones. 

La imagen de arriba muestra el cálculo total utilizado durante el entrenamiento del modelo GPT-3. El modelo utiliza leyes de escala para modelos de lenguaje neuronal para entrenar modelos mucho más grandes con menos tokens de lo habitual. Como resultado, tanto el modelo GPT-3 como el RoBERTa-Large, que es 10 veces más pequeño que el modelo GPT-3, necesitaron casi 50 petaflops/día de cómputo durante el proceso de preentrenamiento. 

Evaluación

Para el aprendizaje de pocas tomas, el modelo evalúa cada ejemplo presente en el conjunto de datos de evaluación extrayendo K ejemplos aleatoriamente del conjunto de datos de entrenamiento de esa tarea como condicionamiento, y lo delimita con 1 o 2 nuevas líneas dependiendo de la tarea. Para Storycloze y LAMBADA, el modelo extrae ejemplos de condicionamiento del conjunto de desarrollo y los evalúa en el conjunto de prueba debido a la falta de disponibilidad de un conjunto de entrenamiento supervisado. Para Winograd, sólo existe un conjunto de datos, por lo que las muestras de acondicionamiento se extraen directamente de él. 

K puede ser cualquier valor desde 0 hasta la cantidad máxima permitida por la ventana de contexto del modelo, que es next = 2048 para todos los modelos y normalmente se ajusta a entre 10 y 100 ejemplos. Los valores más grandes de K a menudo dan mejores resultados, pero no siempre es por eso que cuando el modelo tiene un conjunto de prueba y un conjunto de desarrollo separado disponible, el modelo experimenta con algunos valores de K en el conjunto de desarrollo y en función de los resultados. , ejecuta el mejor valor en el conjunto de prueba. 

Además, en las tareas que requieren seleccionar una finalización correcta de múltiples opciones, los desarrolladores proporcionan K ejemplos de corrección más finalización de contexto, y lo siguen proporcionando un ejemplo de contexto solamente, y luego las tareas se comparan sobre la base de la probabilidad de LM. de cada finalización. Para las tareas que requieren clasificación binaria, los modelos a menudo brindan opciones de manera más semántica y con nombres más significativos, y luego tratan la tarea como opción múltiple y, a veces, también enmarcan la tarea de manera similar a lo que hace el modelo y la arquitectura RSR. 

Para las tareas que requieren finalización de forma libre, el modelo utiliza búsqueda de vigas con parámetros idénticos a los utilizados en el marco RSR, con una viga de longitud 4 y una penalización de 0.6. Luego, el modelo se califica utilizando la puntuación de similitud F1, la coincidencia exacta o BLEU, según el estándar del conjunto de datos. 

Resultados

La figura anterior muestra las curvas de entrenamiento para los 8 modelos utilizados en la arquitectura del modelo GPT-3, como se describe en las secciones anteriores. De manera similar a los resultados del modelo de lenguaje KMH, el rendimiento del modelo GPT-3 sigue una ley adecuada cuando se usa la computación de entrenamiento de manera efectiva. Hay una ligera diferencia con la ley solo cuando la tendencia se extiende por dos órdenes de magnitud más. A la gente se le podría ocurrir que las mejoras en la pérdida de entropía cruzada podrían ser el resultado de modelar detalles falsos del corpus de entrenamiento. Sin embargo, las mejoras en la pérdida de entropía cruzada conducen a ganancias constantes en el rendimiento general en un amplio espectro de una variedad de tareas de PNL. 

Antes de evaluar los 8 modelos diferentes en una amplia gama de datos de entrenamiento, los conjuntos de datos se agrupan en 8 categorías diferentes que representan tareas similares. Estas categorías son

  1. Evaluación en tareas de modelado de lenguaje tradicional y tareas que se asemejan al modelado de lenguaje como tareas de Cloze o tareas de finalización de oración/párrafo. 
  2. Evaluación de tareas de respuesta a preguntas de “libro cerrado”. 
  3. Evaluar la capacidad del modelo para traducir entre idiomas (especialmente de una sola vez y de pocas veces)
  4. Evaluación del desempeño del modelo en tareas similares al esquema de Winograd. 
  5. Evaluar conjuntos de datos que implican razonamiento de sentido común o respuesta a preguntas. 
  6. Evaluar en tareas de comprensión lectora. 
  7. Evaluación en el conjunto de referencia SuperGLUE. 
  8. Explorando la NLI. 

Tareas de modelado, finalización y cierre del lenguaje

En esta sección, se evalúa el desempeño del modelo GPT-3 en las tareas de modelado de lenguaje tradicional, así como en tareas que requieren la predicción de una sola palabra de interés, o completar un párrafo o una oración, o completar una parte de un texto. Vamos a discutirlos en breve detalle. 

Modelado de lenguaje

El modelo GPT-3 calcula la perplejidad del disparo cero en el conjunto de datos PTB o Penn Tree Bank. El modelo omite las tareas relacionadas con Wikipedia porque ya están incluidas en los datos de entrenamiento del modelo, y también se omite el punto de referencia de mil millones de palabras porque causa una cantidad significativa de fricción del conjunto de datos dentro de los datos de entrenamiento. Sin embargo, el conjunto de datos de PTB aborda estos problemas porque puede ser anterior a la Internet moderna. El modelo más grande en la arquitectura del modelo GPT-3 obtiene el nuevo SOTA en el conjunto de datos PTB por un notable margen de 15 puntos y logra una perplejidad de 20.50. 

LAMBADA

El conjunto de datos LAMBADA se utiliza para probar el modelado del modelo en dependencias de largo alcance en párrafos o textos. Significa que se le pide al modelo que prediga la última palabra de una oración después de leer el párrafo del contexto. Además, el escalado continuo de los modelos de lenguaje produce rendimientos decrecientes en el punto de referencia. 

El modelo GPT-3 logra una precisión del 76 % en LAMBADA y tiene una ganancia de más del 8 % con respecto a los mejores modelos anteriores. Además, el modelo LAMBADA demuestra la flexibilidad del aprendizaje de pocos disparos, ya que abordó el problema de una manera que ocurre clásicamente con el conjunto de datos. La finalización de una oración en LAMBADA suele ser la última palabra de la oración, pero como un modelo de lenguaje no puede saber eso, asigna una probabilidad no solo a la terminación correcta, sino también a otras continuaciones en el párrafo. 

Además, cuando los ejemplos introducidos en el modelo GPT-3 se modifican de cierta manera, el modelo arroja una precisión de más del 86%, un aumento de más del 18% con respecto a los modelos anteriores. Además, los resultados también indicaron que el rendimiento del modelo en una configuración de pocos disparos aumenta proporcionalmente con el aumento del tamaño del modelo. Aunque esta estrategia reduce el modelo más pequeño de la arquitectura GPT-3 en un 20 %, mejora la precisión del modelo GPT-3 principal con 175 mil millones de parámetros en un 10 %. 

Respuesta a preguntas a libro cerrado

La respuesta a preguntas a libro cerrado es un intento de medir la capacidad del modelo GPT-3 para responder preguntas basadas en un amplio conocimiento fáctico. Debido a que estas preguntas suelen tener una gran cantidad de consultas posibles, la tarea normalmente se logra utilizando un sistema de recuperación de información que permite al modelo encontrar texto relevante en combinación con el modelo que aprende a generar una respuesta a una respuesta dado el texto recuperado, y la pregunta. 

La imagen de arriba compara el resultado del modelo GPT-3 con diferentes modelos y ejecutándose en diferentes conjuntos de datos. En el conjunto de datos de TriviaQA, el modelo logra una puntuación de precisión del 64.3 % en la configuración de disparo cero, mientras que alcanza una puntuación de precisión del 68 % y del 71.2 % en configuraciones de un disparo y de pocos disparos, respectivamente. 

Evidentemente, se puede ver que el modelo GPT-3 en la configuración de disparo cero supera al modelo T5-11B ajustado en más del 14%. 

La figura anterior muestra que el rendimiento del modelo GPT-3 crece sin problemas con un aumento en el tamaño del modelo. El rendimiento sugiere que los modelos de lenguaje continúan aprendiendo del conjunto de datos a medida que aumenta su capacidad. 

Consideraciones Finales:

Sería seguro decir que GPT-3 fue una fase revolucionaria en la industria de los LLM, ya que GPT-3 ayudó a superar los límites de lo que podía hacer un modelo de lenguaje. Fueron los desarrollos realizados y los obstáculos superados por GPT-3 los que allanaron el camino para el modelo de lenguaje grande más avanzado y preciso hasta la fecha, el GPT-4. 

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.