Inteligencia artificial

El primer aniversario de ChatGPT: Redefiniendo el futuro de la interacción con la IA

mm
ChatGPT vs. Open-Source Models

Al reflexionar sobre el primer año de ChatGPT, es claro que esta herramienta ha cambiado significativamente la escena de la IA. Lanzada a finales de 2022, ChatGPT se destacó por su estilo de conversación amigable y fácil de usar, que hizo que interactuar con la IA se sintiera más como charlar con una persona que con una máquina. Este nuevo enfoque rápidamente captó la atención del público. Dentro de solo cinco días después de su lanzamiento, ChatGPT había atraído a un millón de usuarios. A principios de 2023, esta cifra aumentó a alrededor de 100 millones de usuarios mensuales, y para octubre, la plataforma estaba atrayendo alrededor de 1.700 millones de visitas en todo el mundo. Estos números hablan por sí solos sobre su popularidad y utilidad.

En el transcurso del último año, los usuarios han encontrado todo tipo de formas creativas de utilizar ChatGPT, desde tareas simples como escribir correos electrónicos y actualizar currículos hasta iniciar negocios exitosos. Pero no se trata solo de cómo la gente lo está utilizando; la tecnología en sí ha crecido y mejorado. Inicialmente, ChatGPT era un servicio gratuito que ofrecía respuestas de texto detalladas. Ahora, hay ChatGPT Plus, que incluye ChatGPT-4. Esta versión actualizada está entrenada con más datos, da menos respuestas incorrectas y entiende mejor las instrucciones complejas.

Una de las actualizaciones más importantes es que ChatGPT ahora puede interactuar de múltiples maneras: puede escuchar, hablar y incluso procesar imágenes. Esto significa que puedes hablar con él a través de su aplicación móvil y mostrarle imágenes para obtener respuestas. Estos cambios han abierto nuevas posibilidades para la IA y han cambiado la forma en que la gente ve y piensa sobre el papel de la IA en nuestras vidas.

Desde sus inicios como una demostración tecnológica hasta su estatus actual como un jugador importante en el mundo de la tecnología, el viaje de ChatGPT es bastante impresionante. Inicialmente, se consideró como una forma de probar y mejorar la tecnología mediante la obtención de retroalimentación del público. Pero rápidamente se convirtió en una parte esencial del paisaje de la IA. Este éxito muestra lo efectivo que es afinar los grandes modelos de lenguaje (LLM) con ambos aprendizaje supervisado y retroalimentación humana. Como resultado, ChatGPT puede manejar una amplia gama de preguntas y tareas.

La carrera para desarrollar los sistemas de IA más capaces y versátiles ha llevado a una proliferación de modelos tanto de código abierto como propietarios como ChatGPT. Entender sus capacidades generales requiere benchmarks exhaustivos en un amplio espectro de tareas. Esta sección explora estos benchmarks, arrojando luz sobre cómo diferentes modelos, incluido ChatGPT, se comparan entre sí.

Evaluación de LLM: Los Benchmarks

  1. MT-Bench: Esta benchmark prueba la capacidad de conversación en varias vueltas y el seguimiento de instrucciones en ocho dominios: escritura, roleplay, extracción de información, razonamiento, matemáticas, codificación, conocimiento STEM y humanidades/ciencias sociales. Los LLM más fuertes, como GPT-4, se utilizan como evaluadores.
  2. AlpacaEval: Basado en el conjunto de evaluación AlpacaFarm, este evaluador automático de LLM basado en LLM evalúa los modelos en comparación con las respuestas de LLM avanzados como GPT-4 y Claude, calculando la tasa de victoria de los modelos candidatos.
  3. Open LLM Leaderboard: Utilizando el Language Model Evaluation Harness, esta clasificación evalúa a los LLM en siete benchmarks clave, incluyendo desafíos de razonamiento y pruebas de conocimiento general, en configuraciones de zero-shot y few-shot.
  4. BIG-bench: Esta benchmark colaborativa cubre más de 200 tareas de lenguaje novel, abarcando una amplia gama de temas y lenguas. Tiene como objetivo sondear las capacidades de los LLM y predecir sus capacidades futuras.
  5. ChatEval: Un marco de debate multiagente que permite a los equipos discutir y evaluar autónomamente la calidad de las respuestas de diferentes modelos en preguntas abiertas y tareas de generación de lenguaje natural tradicionales.

Rendimiento Comparativo

En términos de benchmarks generales, los LLM de código abierto han mostrado un progreso notable. Llama-2-70B, por ejemplo, logró resultados impresionantes, particularmente después de ser afinado con datos de instrucción. Su variante, Llama-2-chat-70B, sobresalió en AlpacaEval con una tasa de victoria del 92.66%, superando a GPT-3.5-turbo. Sin embargo, GPT-4 sigue siendo el líder con una tasa de victoria del 95.28%.

Zephyr-7B, un modelo más pequeño, demostró capacidades comparables a los LLM más grandes de 70B, especialmente en AlpacaEval y MT-Bench. Mientras tanto, WizardLM-70B, afinado con una amplia gama de datos de instrucción, obtuvo la puntuación más alta entre los LLM de código abierto en MT-Bench. Sin embargo, todavía se quedó atrás de GPT-3.5-turbo y GPT-4.

Una entrada interesante, GodziLLa2-70B, logró una puntuación competitiva en la Open LLM Leaderboard, mostrando el potencial de los modelos experimentales que combinan conjuntos de datos diversos. De manera similar, Yi-34B, desarrollado desde cero, se destacó con puntuaciones comparables a GPT-3.5-turbo y solo ligeramente por debajo de GPT-4.

UltraLlama, con su afinamiento en datos diversos y de alta calidad, igualó a GPT-3.5-turbo en los benchmarks propuestos e incluso lo superó en áreas de conocimiento mundial y profesional.

Escalando: El Ascenso de los LLM Gigantes

Modelos LLM

Los principales modelos LLM desde 2020

Una tendencia notable en el desarrollo de LLM ha sido la escalada de los parámetros del modelo. Modelos como Gopher, GLaM, LaMDA, MT-NLG y PaLM han empujado los límites, culminando en modelos con hasta 540 mil millones de parámetros. Estos modelos han demostrado capacidades excepcionales, pero su naturaleza de código cerrado ha limitado su aplicación más amplia. Esta limitación ha despertado el interés en desarrollar LLM de código abierto, una tendencia que está ganando impulso.

En paralelo con la escalada del tamaño de los modelos, los investigadores han explorado estrategias alternativas. En lugar de simplemente hacer que los modelos sean más grandes, se han centrado en mejorar el preentrenamiento de los modelos más pequeños. Ejemplos incluyen Chinchilla y UL2, que han demostrado que más no siempre es mejor; las estrategias más inteligentes pueden producir resultados eficientes también. Además, ha habido una considerable atención en el ajuste de la instrucción de los modelos de lenguaje, con proyectos como FLAN, T0 y Flan-T5 haciendo contribuciones significativas en este área.

El Catalizador ChatGPT

La introducción de ChatGPT de OpenAI marcó un punto de inflexión en la investigación de NLP. Para competir con OpenAI, empresas como Google y Anthropic lanzaron sus propios modelos, Bard y Claude, respectivamente. Aunque estos modelos muestran un rendimiento comparable a ChatGPT en muchas tareas, todavía se quedan atrás del último modelo de OpenAI, GPT-4. El éxito de estos modelos se atribuye principalmente al aprendizaje de refuerzo con retroalimentación humana (RLHF), una técnica que está recibiendo una mayor atención para su mejora.

Rumores y Especulaciones sobre Q* (Q-Star) de OpenAI

Informes recientes sugieren que los investigadores de OpenAI pueden haber logrado un avance significativo en la IA con el desarrollo de un nuevo modelo llamado Q* (pronunciado Q estrella). Alegadamente, Q* tiene la capacidad de realizar matemáticas a nivel de escuela primaria, un logro que ha generado discusiones entre expertos sobre su potencial como un hito hacia la inteligencia artificial general (AGI). Aunque OpenAI no ha comentado sobre estos informes, las presuntas capacidades de Q* han generado considerable emoción y especulación en las redes sociales y entre los entusiastas de la IA.

El desarrollo de Q* es notable porque los modelos de lenguaje existentes, como ChatGPT y GPT-4, aunque capaces de realizar algunas tareas matemáticas, no son particularmente hábiles para manejarlas de manera fiable. El desafío radica en la necesidad de que los modelos de IA no solo reconozcan patrones, como lo hacen actualmente a través del aprendizaje profundo y los transformadores, sino que también razonen y entiendan conceptos abstractos. Las matemáticas, al ser un benchmark para el razonamiento, requieren que el modelo de IA planifique y ejecute múltiples pasos, demostrando una comprensión profunda de conceptos abstractos. Esta capacidad marcaría un salto significativo en las capacidades de la IA, potencialmente extendiéndose más allá de las matemáticas a otras tareas complejas.

Sin embargo, los expertos advierten contra sobrevalorar este desarrollo. Aunque un sistema de IA que resuelve problemas matemáticos de manera fiable sería un logro impresionante, no necesariamente señala la llegada de la superinteligencia o la AGI. La investigación actual de la IA, incluidos los esfuerzos de OpenAI, se ha centrado en problemas elementales, con grados variables de éxito en tareas más complejas.

Las posibles aplicaciones de avances como Q* son vastas, desde tutoría personalizada hasta asistencia en investigación científica e ingeniería. Sin embargo, también es importante gestionar las expectativas y reconocer las limitaciones y preocupaciones de seguridad asociadas con tales avances. Las preocupaciones sobre la IA que plantea riesgos existenciales, una preocupación fundamental de OpenAI, siguen siendo pertinentes, especialmente a medida que los sistemas de IA comienzan a interactuar más con el mundo real.

El Movimiento de LLM de Código Abierto

Para impulsar la investigación de LLM de código abierto, Meta lanzó la serie de modelos Llama, desencadenando una oleada de nuevos desarrollos basados en Llama. Esto incluye modelos afinados con datos de instrucción, como Alpaca, Vicuna, Lima y WizardLM. La investigación también se está ramificando hacia la mejora de las capacidades de los agentes, el razonamiento lógico y la modelización de contexto largo dentro del marco de Llama.

Además, hay una tendencia creciente de desarrollar LLM poderosos desde cero, con proyectos como MPT, Falcon, XGen, Phi, Baichuan, Mistral, Grok y Yi. Estos esfuerzos reflejan un compromiso para democratizar las capacidades de los LLM de código cerrado, haciendo que las herramientas de IA avanzadas sean más accesibles y eficientes.

El Impacto de ChatGPT y los Modelos de Código Abierto en la Atención Médica

Estamos ante un futuro en el que los LLM asistirán en la toma de notas clínicas, el llenado de formularios para reembolsos y el apoyo a los médicos en la planificación de diagnóstico y tratamiento. Esto ha captado la atención de tanto gigantes tecnológicos como instituciones de atención médica.

Las discusiones de Microsoft con Epic, un proveedor líder de software de registros electrónicos de salud, señalan la integración de LLM en la atención médica. Iniciativas ya están en marcha en UC San Diego Health y el Centro Médico de la Universidad de Stanford. De manera similar, las colaboraciones de Google con la Clínica Mayo y el lanzamiento de Amazon Web Services de HealthScribe, un servicio de documentación clínica de IA, marcan avances significativos en esta dirección.

Sin embargo, estos despliegues rápidos plantean preocupaciones sobre la cesión del control de la medicina a intereses corporativos. La naturaleza propietaria de estos LLM hace que sea difícil evaluarlos. Su posible modificación o discontinuación por razones de rentabilidad podría comprometer la atención al paciente, la privacidad y la seguridad.

La necesidad urgente es de un enfoque abierto e inclusivo para el desarrollo de LLM en la atención médica. Las instituciones de atención médica, los investigadores, los clínicos y los pacientes deben colaborar a nivel global para construir LLM de código abierto para la atención médica. Este enfoque, similar al Consorcio de Trillion Parameter, permitiría la agrupación de recursos computacionales, financieros y de expertos.

He dedicado los últimos cinco años sumergiéndome en el fascinante mundo de Machine Learning y Deep Learning. Mi pasión y experiencia me han llevado a contribuir a más de 50 proyectos de ingeniería de software diversos, con un enfoque particular en AI/ML. Mi curiosidad en curso también me ha llevado hacia el Procesamiento de Lenguaje Natural, un campo que estoy ansioso por explorar más a fondo.