AGI
¿Es GPT-4 un salto hacia alcanzar la IA general?

Microsoft acaba de publicar un artículo de investigación titulado: Chispas de inteligencia artificial general: Experimentos tempranos con GPT-4. Como describe Microsoft:
Este artículo informa sobre nuestra investigación de una versión temprana de GPT-4, cuando aún estaba en desarrollo activo por OpenAI. Sostenemos que (esta versión temprana de) GPT-4 es parte de un nuevo grupo de LLM (junto con ChatGPT y PaLM de Google, por ejemplo) que exhiben una inteligencia más general que los modelos de IA anteriores.
En este artículo, hay evidencia concluyente que demuestra que GPT-4 va mucho más allá de la memorización, y que tiene una comprensión profunda y flexible de conceptos, habilidades y dominios. De hecho, su capacidad para generalizar supera con creces la de cualquier ser humano vivo hoy en día.
Mientras que anteriormente hemos discutido los beneficios de la IA general, debemos resumir rápidamente el consenso general de lo que es un sistema de IA general. En esencia, una IA general es un tipo de IA avanzada que puede generalizar en múltiples dominios y no es estrecha en alcance. Ejemplos de IA estrecha incluyen un vehículo autónomo, un chatbot, un bot de ajedrez o cualquier otro IA diseñado para un solo propósito.
Una IA general, en comparación, podría alternar flexiblemente entre cualquiera de los anteriores o cualquier otro campo de especialización. Es un IA que aprovecharía algoritmos nacientes como aprendizaje de transferencia y aprendizaje evolutivo, mientras que también explotaría algoritmos legados como aprendizaje de refuerzo profundo.
La descripción anterior de la IA general coincide con mi experiencia personal al usar GPT-4, así como con la evidencia compartida en el artículo de investigación que fue publicado por Microsoft.
Una de las solicitudes descritas en el artículo es para que GPT-4 escriba una prueba de la infinitud de primos en forma de poema.

Si analizamos los requisitos para crear dicho poema, nos damos cuenta de que requiere razonamiento matemático, expresión poética y generación de lenguaje natural. Este es un desafío que superaría la capacidad promedio de la mayoría de los humanos.
El artículo quería entender si GPT-4 estaba produciendo contenido basado en memorización general versus comprensión de contexto y capacidad de razonamiento. Cuando se le pidió que recreara un poema al estilo de Shakespeare, pudo hacerlo. Esto requiere un nivel de comprensión multifacético que supera con creces la capacidad de la población en general e incluye teoría de la mente y genio matemático.
¿Cómo calcular la inteligencia de GPT-4?
La pregunta entonces se convierte en ¿cómo podemos medir la inteligencia de un LLM? ¿Y está GPT-4 exhibiendo comportamientos de aprendizaje real o simple memorización?
La forma actual de probar un sistema de IA es evaluándolo en un conjunto de conjuntos de datos de referencia estándar, y asegurándose de que sean independientes de los datos de entrenamiento y que cubran una variedad de tareas y dominios. Esta forma de prueba es casi imposible debido a la casi ilimitada cantidad de datos en los que se entrenó a GPT-4.
El artículo discute la generación de tareas/preguntas novedosas y difíciles que demuestran convincentemente que GPT-4 va mucho más allá de la memorización, y que tiene una comprensión profunda y flexible de conceptos, habilidades y dominios.
Cuando se trata de inteligencia, GPT-4 puede generar historias cortas, guiones y puede calcular las fórmulas más complicadas.
GPT-4 también puede codificar a un nivel muy alto, tanto en términos de escribir código a partir de instrucciones como de comprender código existente. GPT-4 puede manejar una amplia gama de tareas de codificación, desde desafíos de codificación hasta aplicaciones del mundo real, desde ensamblaje de bajo nivel hasta marcos de alto nivel, desde estructuras de datos simples hasta programas complejos como juegos. GPT-4 también puede razonar sobre la ejecución de código, simular los efectos de las instrucciones y explicar los resultados en lenguaje natural. GPT-4 incluso puede ejecutar pseudocódigo,
GPT-4 puede ofrecer respuestas racionales a casi cualquier solicitud dada. De hecho, su inteligencia es casi invencible en su complejidad.
Limitaciones de GPT-4
El artículo continúa describiendo cómo probaron las respuestas y comportamientos de GPT-4, para verificar su consistencia, coherencia y corrección, y para descubrir sus limitaciones y sesgos.
La limitación más obvia es su tendencia a alucinar. Aquí hay un ejemplo de una alucinación que se da en el artículo donde GPT-4 estaba seguro de su respuesta, que era completamente falsa.

Parece que incluso GPT-4 entiende esta limitación actual con las alucinaciones, ya que esta fue la respuesta que dio cuando le pregunté qué es una alucinación de GPT:
Una alucinación de GPT se refiere a un fenómeno en el que un modelo de Transformador Preentrenado Generativo (GPT) como el que está interactuando, produce una respuesta que no se basa en información factual o no es coherente con el contexto proporcionado. Estas alucinaciones ocurren cuando el modelo genera texto que puede parecer plausible pero es en realidad incorrecto, engañoso o sin sentido.
En otras palabras, cuando se entrena a un LLM en los datos del mundo, ¿cómo se evita que el sistema aprenda datos incorrectos? Un modelo de lenguaje grande que aprende y regurgita información incorrecta y teorías de la conspiración podría ser uno de los mayores obstáculos y amenazas que enfrenta la humanidad con la adopción a gran escala de LLM. Esto podría ser una de las mayores amenazas de la IA general, una que sorprendentemente se pasa por alto al discutir los peligros de la IA general.
Pruebas de inteligencia de GPT-4
El artículo ilustra que no importaba qué tipo de solicitudes complejas se dirigieran hacia él, GPT-4 superaría las expectativas. Como se establece en el artículo:
Su dominio sin precedentes del lenguaje natural. No solo puede generar texto fluido y coherente, sino que también puede comprender y manipularlo de diversas maneras, como resumir, traducir o responder a un conjunto extremadamente amplio de preguntas. Además, al traducir, nos referimos no solo a la traducción entre diferentes lenguas naturales, sino también a traducciones en tono y estilo, así como en dominios como medicina, derecho, contabilidad, programación informática, música y más.
Se le dieron revisiones técnicas simuladas a GPT-4, pasó con facilidad, lo que significa que en este contexto, si esto fuera un humano en el otro extremo, sería contratado instantáneamente como ingeniero de software. Una prueba preliminar similar de la competencia de GPT-4 en el Examen de Barra Multistatal mostró una precisión superior al 70%. Esto significa que en el futuro podríamos automatizar muchas de las tareas que actualmente se les asignan a los abogados. De hecho, hay algunas empresas emergentes que están trabajando para crear abogados robot que utilizan GPT-4.
Producción de nuevo conocimiento
Uno de los argumentos del artículo es que lo único que le queda a GPT-4 para demostrar niveles verdaderos de comprensión es producir nuevo conocimiento, como probar nuevos teoremas matemáticos, una hazaña que actualmente está fuera del alcance de los LLM.
Sin embargo, esto es el Santo Grial de una IA general. Mientras que hay peligros con una IA general controlada en las manos equivocadas, los beneficios de una IA general que pueda analizar rápidamente todos los datos históricos para descubrir nuevos teoremas, curas y tratamientos son casi infinitos.
Una IA general podría ser el eslabón perdido hacia la búsqueda de curas para enfermedades genéticas raras que actualmente carecen de financiación de la industria privada, hacia la cura del cáncer de una vez por todas, y para maximizar la eficiencia de la energía renovable para eliminar nuestra dependencia de la energía insostenible. De hecho, podría resolver cualquier problema consecuente que se le introduzca al sistema de IA general. Esto es lo que Sam Altman y el equipo de OpenAI entienden, una IA general es verdaderamente la última invención que se necesita para resolver la mayoría de los problemas y beneficiar a la humanidad.
Por supuesto, eso no resuelve el problema del botón nuclear de quién controla la IA general y cuáles son sus intenciones. Sin embargo, este artículo hace un trabajo fenomenal al argumentar que GPT-4 es un salto hacia alcanzar el sueño de los investigadores de IA que han tenido desde 1956, cuando se lanzó por primera vez el taller de verano de investigación de Dartmouth sobre IA.
Mientras que es debatible si GPT-4 es una IA general, se podría argumentar fácilmente que por primera vez en la historia humana es un sistema de IA que puede aprobar la prueba de Turing.












