Líderes de opinión
El espejismo de la IA de China: Cómo “código abierto” oculta lo más importante

Con jugadores de Big Tech como Google, Microsoft y Meta compitiendo por dominar el mercado de la IA, los altos vuelos de China, Baidu, Moonshot y Alibaba han hecho titulares al lanzar sus DeepSeek, ERNIE 4.5, Kimi K2 y Qwen3 modelos de lenguaje grande, respectivamente, como código abierto. Este cambio de lanzar modelos de GenAI protegidos y propietarios ha sido recibido como un signo de que la industria de la IA de China está adoptando el poder del código abierto para democratizar el desarrollo de la IA y fomentar la innovación.
Al igual que muchos jugadores que anuncian sus ofertas como código abierto e incluso lo incluyen en sus nombres de empresa, sin embargo, High Flyer, Baidu y Moonshot no han compartido realmente piezas críticas como conjuntos de datos en el corazón de sus modelos. A medida que estos grandes modelos buscan convertirse en commodities en las que los desarrolladores confían, la transparencia de un verdadero código abierto que puede ser probado, investigado e iterado es fundamental para crear tecnología imparcial, ética y beneficiosa en la que todos podamos confiar. Todos estos modelos “de código abierto” son en realidad “de peso abierto”, lo que significa que se pueden descargar y utilizar, pero no se pueden inspeccionar de manera significativa sin los datos.
A medida que los jugadores de EE. UU. como Open AI y Meta parecen estar alejándose del código abierto, la invitación abierta de Baidu para aprovechar su suite gratuitamente disponible de modelos ERNIE 4.5 puede en realidad fomentar la innovación y la colaboración con los desarrolladores que buscan crear aplicaciones más pequeñas y poderosas. Al mismo tiempo, la empresa, que es similar a Google de China, se ha dado una ventaja competitiva alentando la adopción y arraigando sus modelos en el ecosistema de IA en crecimiento.
Lo mismo se puede decir de DeepSeek, el Kimi K2 de bajo precio y el Qwen3 actualizado, que cuenta con puntos de referencia que desafían a modelos cerrados como Claude Opus 4 y GPT-4o-0327.
Estos jugadores de IA se han posicionado bien en la carrera para convertirse en el modelo de commodity de elección y la última actualización innovadora de Qwen3 fue inspirada incluso por la retroalimentación de la comunidad de código abierto.
Al igual que muchos que anuncian sus grandes modelos de IA como código abierto, sin embargo, la comunidad de IA china no está compartiendo realmente los datos ni otras piezas críticas de sus sistemas de IA. En cambio, están pidiendo a los desarrolladores globales que depositen su fe ciega en modelos que no pueden entender o investigar realmente.
Apostando por el futuro con modelos de IA de commodity de código abierto
Cuando el iPhone irrumpió en el mercado en 2007, algunos asumieron que Mac dominaría el juego de los smartphones con iOS, pero la participación en el código abierto es integral para las startups, y también fomenta el crecimiento empresarial y económico en todo el mundo, y Android, una startup adquirida por Google en 2005, siguió este camino hacia la victoria.
Al lanzar software de código abierto que podía ser visto, modificado, adoptado y compartido, Android invitó a académicos, desarrolladores e incluso a competidores a colaborar en el software. Esto aceleró el proceso de innovación, democratizó el campo de juego y, en última instancia, redujo los precios. Android llegó al mercado un año después del primer iPhone y al comienzo de este año, contaba con el 71,88 por ciento del mercado global, frente al 27,65 por ciento de iOS.
En una revolución tecnológica que pareció ocurrir de la noche a la mañana, los smartphones se volvieron ubicuos y, incluso cuando las mejoras en el software, el hardware y la interfaz de usuario continúan, la industria ha crecido mucho más allá de tratar de revolucionar la forma en que funcionan los smartphones. Con los teléfonos celulares ahora una commodity, la innovación en curso es en las aplicaciones que se ejecutan en ellos, y para ser contendientes, los proveedores de smartphones deben mantener un ecosistema que invite a los desarrolladores.
No tres años después del lanzamiento de ChatGPT, la industria de la IA se encuentra en un punto similar. Cada jugador en la industria global de la IA está angulando para que sus modelos se conviertan en el próximo Android o incluso iOS, y al ir de código abierto con los modelos DeepSeek, ERNIE 4.5 y Kimi K2, los innovadores chinos están tratando de apostar por un ecosistema en ciernes.
Aunque esto podría funcionar a su favor, sin embargo, no fomenta la verdadera transparencia del código abierto que ha sido esencial para generar no solo innovación, sino innovación en la que podamos confiar.
Los datos son la pieza que falta en la mayoría de la IA de código abierto
Con modelos de IA mucho más complicados de crear y compartir que el software tradicional, el llamado a una IA de código abierto completamente abierto no es una orden pequeña. En lugar de solo un código fuente simple, los sistemas de IA están compuestos por siete componentes, incluyendo el código fuente, los parámetros del modelo, el conjunto de datos, los hiperparámetros, el código fuente de entrenamiento, la generación de números aleatorios y los marcos de software.
Cada pieza debe funcionar en concierto para que un modelo entregue los resultados deseados, lo que significa que los desarrolladores necesitan visibilidad completa para compartir, modificar y adoptar un sistema y entender qué está sucediendo. Con la reproducibilidad como fundamento del método científico, sin embargo, la industria de la IA tiene un hábito de utilizar el término código abierto para referirse a lanzamientos gratuitos o de bajo precio que se ponen a disposición con acceso a unas pocas piezas del rompecabezas.
Baidu, por ejemplo, puso a disposición diez modelos ERNIE 4.5. Junto con el modelo y los parámetros compartidos, la empresa también lanzó como código abierto ERNIEKit y las herramientas de implementación FastDeploy. Estas permiten a los desarrolladores crear aplicaciones de IA poderosas al proporcionar capacidades de nivel industrial, flujos de trabajo de entrenamiento y inferencia eficientes en recursos, y compatibilidad con varios hardware.
En otras palabras, Baidu ha proporcionado a los desarrolladores herramientas emocionantes que les permiten desencadenar la innovación más rápido, lo que esperan que, a su vez, los impulse a elegir ERNIE 4.5 sobre la competencia.
Los desarrolladores que aprovechan ERNIE 4.5, sin embargo, se les pide que confíen ciegamente en el modelo, porque Baidu ha mantenido mucho oculto, incluidos los conjuntos de datos que informan y enseñan a sus modelos.
El poder de los modelos de IA de código abierto transparentes
Aunque cada pieza del rompecabezas de la IA es crítica para que un modelo funcione, el 80 por ciento de los proyectos de IA fallan, y los datos están en el corazón del problema. Los conjuntos de datos inexactos, incompletos y sesgados llevan a modelos que no se comportan de manera predecible o deseada.
El video de choque de conducción autónoma de Tesla de 2023 lanzado recientemente, por ejemplo, expuso el peor escenario posible de lo que puede suceder cuando un conjunto de datos y un modelo no están a la altura. A medida que el Tesla Model Y se acercaba a un sol poniente brillante, el sistema parcialmente automatizado no podía entender ni reaccionar adecuadamente a lo que sus cámaras estaban viendo, o no viendo. Mientras que los coches conducidos por humanos se desaceleraban y se desviaban, la confusión del FSD resultó en la muerte de una mujer.
Este fracaso devastador reflejó datos visuales incompletos, así como la falta de un mecanismo de seguridad que tuviera en cuenta tales puntos ciegos. Cuando los desarrolladores no tienen visibilidad sobre sus datos, no pueden ver cómo interactúan con el modelo, lo que significa que no pueden descubrir tales errores y iterar para un rendimiento robusto.
Aún más preocupante, sin los datos que alimentan el modelo, se les obliga a confiar ciegamente en él.
Cuando los conjuntos de datos son de código abierto, sin embargo, la comunidad de la IA ha demostrado que arraigará los problemas problemáticos, como lo hizo al descubrir más de 1.000 URLs que contenían material de abuso sexual infantil verificado en LAION 5B. Con el conjunto de datos utilizado para los modelos de generación de texto a imagen de la IA siendo fundamental para crear aplicaciones como Stable Diffusion y Midjourney, habría sido devastador para la industria de la IA si los usuarios comenzaron a producir imágenes fotorealistas ilícitas. En cambio, la naturaleza abierta de este conjunto de datos permitió que la comunidad descubriera el contenido peligroso y motivara una solución, Liaison B.
Además, gran parte de ese primer conjunto de datos se basó en la extracción de datos web realizada por el enorme Common Crawl, que también se utilizó para los modelos ChatGPT y LLAMA. Aunque los rastreadores de IA siguen generando preocupaciones sobre la propiedad intelectual, la privacidad y la etiquetado sesgado y racista, sin embargo, los desarrolladores en la comunidad de la IA están trabajando en formas de limpiar piezas del conjunto de datos de código abierto en crecimiento de Common Crawl para un uso más seguro.
A medida que los desarrolladores apuntan a no solo construir una IA poderosa, sino también una IA en la que podamos confiar, tanto los usuarios como la industria están protegidos por la transparencia y la colaboración de los modelos de IA de código abierto verdaderos.
Aceptar el camino del código abierto
Con muchos todavía recelosos de esta tecnología en ciernes, la carrera para convertirse en el iOS o Android de los grandes modelos de IA de commodity está en marcha, y a medida que la comunidad global de la IA construye literalmente lo que se convertirá en el estándar para el futuro y los sistemas de IA ya están conduciendo coches y ofreciendo evaluaciones médicas, establecer la confianza al crear una IA imparcial, confiable y segura nunca ha sido más crítico.
Con la comunidad de IA de China tratando de posicionarse como los campeones de la innovación abierta, el camino hacia una IA segura solo se encuentra en la transparencia de un código abierto verdadero que ha sido probado a través de décadas de innovación en software. Arrojar el término a sistemas que no comparten piezas críticas como los datos no permite a los desarrolladores investigar, replicar e iterar. Aunque el atractivo de los modelos disponibles como DeepSeek, ERNIE 4.5, Kimi K2 y Qwen3 es innegable, los desarrolladores que los aprovechan intercambian la transparencia que fomenta la colaboración y la innovación por conveniencia.
La comunidad de la IA debe elegir: aceptar la transparencia radical a través de un código abierto genuino, o arriesgarse a construir los sistemas críticos de mañana sobre las cajas negras de hoy.












