Connect with us

Cómo los LLMs nos obligan a redefinir la inteligencia

Inteligencia artificial

Cómo los LLMs nos obligan a redefinir la inteligencia

mm

Hay un viejo dicho: Si parece un pato, nada como un pato y grazna como un pato, entonces probablemente es un pato. Esta forma simple de razonar, a menudo vinculada al poeta de Indiana James Whitcomb Riley, ha dado forma a cómo pensamos sobre la inteligencia artificial durante décadas. La idea de que el comportamiento es suficiente para identificar la inteligencia inspiró el famoso “Juego de imitación” de Alan Turing, ahora llamado Prueba de Turing.

Turing sugirió que si un ser humano no puede determinar si está conversando con una máquina o con otro ser humano, entonces la máquina se puede considerar inteligente. Tanto la prueba del pato como la prueba de Turing sugieren que lo que importa no es lo que hay dentro de un sistema, sino cómo se comporta. Durante décadas, esta prueba ha guiado los avances en la inteligencia artificial. Pero, con la llegada de los grandes modelos de lenguaje (LLMs), la situación ha cambiado. Estos sistemas pueden escribir textos fluidos, mantener conversaciones y resolver tareas de manera que se siente notablemente humana. La pregunta ya no es si las máquinas pueden imitar la conversación humana, sino si esta imitación es una verdadera inteligencia. Si un sistema puede escribir como nosotros, razonar como nosotros e incluso crear como nosotros, ¿deberíamos llamarlo inteligente? ¿O es que el comportamiento solo ya no es suficiente para medir la inteligencia?

La evolución de la inteligencia de la máquina

Los grandes modelos de lenguaje han cambiado la forma en que pensamos sobre la inteligencia artificial. Estos sistemas, que antes estaban limitados a generar respuestas de texto básicas, ahora pueden resolver problemas lógicos, escribir código de computadora, redactar historias e incluso ayudar con tareas creativas como la escritura de guiones. Uno de los desarrollos clave en este progreso es su capacidad para resolver problemas complejos a través de un razonamiento paso a paso, un método conocido como razonamiento en cadena de pensamientos. Al descomponer un problema en partes más pequeñas, un LLM puede resolver problemas matemáticos complejos o rompecabezas lógicos de una manera que se parece a la resolución de problemas humanos. Esta capacidad les ha permitido igualar o incluso superar el rendimiento humano en benchmarks avanzados como MATH o GSM8K. Hoy en día, los LLMs también poseen capacidades multimodales. Pueden trabajar con imágenes, interpretar escaneos médicos, explicar rompecabezas visuales y describir diagramas complejos. Con estos avances, la pregunta ya no es si los LLMs pueden imitar el comportamiento humano, sino si este comportamiento refleja una comprensión genuina.

Huellas de pensamiento similar al humano

El éxito de los LLMs está redefiniendo la forma en que entendemos la inteligencia. El enfoque se está desplazando desde la alineación del comportamiento de la inteligencia artificial con los humanos, como sugiere la prueba de Turing, hacia la exploración de cómo los LLMs reflejan el pensamiento humano en la forma en que procesan la información (es decir, un verdadero pensamiento similar al humano). Por ejemplo, en un estudio reciente, los investigadores compararon los mecanismos internos de los modelos de inteligencia artificial con la actividad del cerebro humano. El estudio encontró que los LLMs con más de 70 mil millones de parámetros no solo alcanzaron la precisión humana, sino que también organizaron la información internamente de maneras que coincidían con los patrones del cerebro humano.

Cuando tanto los humanos como los modelos de inteligencia artificial trabajaron en tareas de reconocimiento de patrones, los escaneos del cerebro mostraron patrones de actividad similares en los participantes humanos y patrones computacionales correspondientes en los modelos de inteligencia artificial. Los modelos agruparon conceptos abstractos en sus capas internas de maneras que coincidían directamente con la actividad de las ondas cerebrales humanas. Esto sugiere que el razonamiento exitoso puede requerir estructuras organizativas similares, ya sea en sistemas biológicos o artificiales.

Sin embargo, los investigadores tienen cuidado al señalar las limitaciones de este trabajo. El estudio involucró a un número relativamente pequeño de participantes humanos, y los humanos y las máquinas abordaron las tareas de manera diferente. Los humanos trabajaron con patrones visuales, mientras que los modelos de inteligencia artificial procesaron descripciones de texto. La correlación entre el procesamiento humano y la máquina es intrigante, pero no prueba que las máquinas entiendan los conceptos de la misma manera que los humanos.

También hay diferencias claras en el rendimiento. Mientras que los mejores modelos de inteligencia artificial se acercaron a la precisión humana en patrones simples, mostraron caídas de rendimiento más dramáticas en las tareas más complejas en comparación con los participantes humanos. Esto sugiere que, a pesar de las similitudes en la organización, puede que todavía haya diferencias fundamentales en la forma en que los humanos y las máquinas procesan conceptos abstractos complejos.

La perspectiva escéptica

A pesar de estos hallazgos impresionantes, un argumento sólido sugiere que los LLMs no son más que un hábil imitador. Esta visión proviene del experimento de pensamiento “Habitación china” del filósofo John Searle, que ilustra por qué el comportamiento puede no ser igual a la comprensión.

En este experimento de pensamiento, Searle nos pide que imaginemos a una persona encerrada en una habitación y que solo puede hablar inglés. La persona recibe símbolos chinos y utiliza un libro de reglas en inglés para manipular estos símbolos y producir respuestas. Desde fuera de la habitación, sus respuestas parecen exactamente como las de un hablante nativo de chino. Sin embargo, Searle argumenta que la persona no entiende nada sobre el chino. Simplemente sigue reglas sin una comprensión real.

Los críticos aplican la misma lógica a los LLMs. Argumentan que estos sistemas son “pájaros estocásticos” que generan respuestas basadas en patrones estadísticos en sus datos de entrenamiento, no en una comprensión genuina. El término “estocástico” se refiere a su naturaleza probabilística, mientras que “pájaro” enfatiza su comportamiento imitativo sin comprensión real.

Varias limitaciones técnicas de los LLMs también respaldan este argumento. Los LLMs generan con frecuencia “alucinaciones”; respuestas que parecen plausibles pero que son completamente incorrectas, engañosas y sin sentido. Esto ocurre porque seleccionan palabras estadísticamente plausibles en lugar de consultar una base de conocimientos interna o comprender la verdad y la falsedad. Estos modelos también reproducen errores y sesgos humanos. Se confunden con información irrelevante que los humanos fácilmente ignorarían. Exhiben estereotipos raciales y de género porque aprendieron de datos que contenían estos sesgos. Otra limitación reveladora es el “sesgo de posición”, donde los modelos enfatizan demasiado la información al principio o al final de documentos largos mientras descuidan el contenido del medio. Este fenómeno “perdido en el medio” sugiere que estos sistemas procesan la información de manera muy diferente a los humanos, que pueden mantener la atención a lo largo de todo el documento.

Estas limitaciones resaltan un desafío central: aunque los LLMs excelan en reconocer y reproducir patrones de lenguaje, esto no significa que verdaderamente entiendan el significado o el contexto del mundo real. Realizan bien la sintaxis pero siguen limitados cuando se trata de la semántica.

¿Qué cuenta como inteligencia?

La discusión finalmente se reduce a cómo definimos la inteligencia. Si la inteligencia es la capacidad de generar lenguaje coherente, resolver problemas y adaptarse a nuevas situaciones, entonces los LLMs ya cumplen con ese estándar. Sin embargo, si la inteligencia requiere autoconciencia, comprensión genuina o experiencia subjetiva, estos sistemas todavía no alcanzan ese nivel.

La dificultad es que carecemos de una forma clara u objetiva de medir cualidades como la comprensión o la conciencia. Tanto en humanos como en máquinas, las inferimos del comportamiento. La prueba del pato y la prueba de Turing una vez proporcionaron respuestas elegantes, pero en la era de los LLMs, pueden no ser suficientes. Sus capacidades nos obligan a reconsiderar qué cuenta realmente como inteligencia y si nuestras definiciones tradicionales están manteniendo el ritmo con la realidad tecnológica.

En resumen

Los grandes modelos de lenguaje desafían la forma en que definimos la inteligencia artificial. Pueden imitar el razonamiento, generar ideas y realizar tareas que antes se consideraban únicamente humanas. Sin embargo, carecen de la conciencia y la base que dan forma al verdadero pensamiento similar al humano. Su surgimiento nos obliga a preguntar no solo si las máquinas actúan de manera inteligente, sino qué significa la inteligencia en sí.

El Dr. Tehseen Zia es un profesor asociado titular en la Universidad COMSATS de Islamabad, con un doctorado en Inteligencia Artificial de la Universidad Técnica de Viena, Austria. Especializado en Inteligencia Artificial, Aprendizaje Automático, Ciencia de Datos y Visión por Computadora, ha hecho contribuciones significativas con publicaciones en revistas científicas reputadas. El Dr. Tehseen también ha liderado varios proyectos industriales como investigador principal y ha servido como consultor de Inteligencia Artificial.