Contáctenos

Repensando el código abierto en la era de la IA generativa

Líderes del pensamiento

Repensando el código abierto en la era de la IA generativa

mm

El modelo de código abierto —una filosofía de desarrollo de software en la que el código fuente se pone a disposición del público para su libre redistribución o modificación— ha sido durante mucho tiempo un catalizador de la innovación. Este ideal nació en 1983 cuando Richard Stallman, desarrollador de software, se frustró con la naturaleza de caja negra de su impresora de código cerrado, que no funcionaba correctamente.

Su visión desencadenó el movimiento del software libre, allanando el camino para el ecosistema de código abierto que impulsa gran parte de la innovación en Internet y el software actual.

Pero eso fue hace más de 40 años.

Hoy en día, la IA generativa, con sus desafíos técnicos y éticos únicos, está reformulando el significado de “apertura” y exige que revisemos y repensemos el paradigma del código abierto, no para abandonarlo, sino para adaptarlo.

La IA y las libertades del código abierto

Las cuatro libertades fundamentales del software de código abierto: la capacidad de ejecutar, estudiar, modificar y redistribuir cualquier código de software, están en desacuerdo con la naturaleza de la IA generativa de varias maneras:

  • Ejecutar: Los modelos de IA a menudo requieren infraestructura y costos computacionales muy altos, lo que límitar de la máquina debido a limitaciones de recursos.
  • Estudiar y modificar: Los modelos de IA son increíblemente complejos, por lo que comprenderlos y modificarlos Sin acceso tanto al código como a los datos que lo informan es un desafío importante.
  • redistribución:Muchos modelos de IA restringir la redistribución por diseño, particularmente aquellos con pesos entrenados y conjuntos de datos propietarios del proveedor de la plataforma.

La erosión de estos principios fundamentales no se debe a malas intenciones, sino a la enorme complejidad y el coste de los sistemas modernos de IA. De hecho, las exigencias financieras para entrenar modelos de IA de vanguardia han aumentado drásticamente en los últimos años; según se informa, el GPT-4 de OpenAI generó unos costes de entrenamiento de... hasta $ 78 millones, excluyendo los salarios del personal, con gastos totales superior 100 millones de dólares.

La complejidad de la IA de “código abierto”

Un modelo de IA verdaderamente abierto requeriría transparencia total del código fuente de inferencia, el código fuente de entrenamiento, los pesos del modelo y los datos de entrenamiento. Sin embargo, muchos modelos etiquetados como "abiertos" solo publican el código de inferencia o pesos parciales, mientras que otros ofrecen licencias limitadas o restringen por completo el uso comercial.

Esta apertura imparcial crea la ilusión de principios de código abierto, pero en la práctica no cumple sus objetivos.

Considere que un análisis de la Iniciativa de Código Abierto (OSI) encontró que varios modelos de lenguaje grandes y populares afirmando ser de código abierto –incluidos Llama2 y Llama 3.x (desarrollados por Meta), Grok (X), Phi-2 (Microsoft) y Mixtral (Mistral AI)– son estructuralmente incompatibles con los principios de código abierto.

Desafíos de sostenibilidad e incentivación

La mayor parte del software de código abierto se creó gracias a iniciativas impulsadas por voluntarios o financiadas con subvenciones, en lugar de infraestructuras de alto coste y alto consumo de recursos. Por otro lado, los modelos de IA son costosos de entrenar y mantener, y se espera que los costos aumenten. El director ejecutivo de Anthropic, Dario Amodei, predice que, con el tiempo, podría costar hasta... 100 millones de dólares para entrenar un modelo de vanguardia.

Sin un modelo de financiación sostenible o una estructura de incentivos, los desarrolladores se enfrentan a una elección entre restringir el acceso mediante licencias de código cerrado o no comerciales o correr el riesgo de un colapso financiero.

Conceptos erróneos sobre los pesos abiertos y las licencias

La accesibilidad de los modelos de IA se ha vuelto cada vez más confusa, ya que muchas plataformas se promocionan como "abiertas" mientras imponen restricciones que contradicen fundamentalmente los verdaderos principios del código abierto. Esta "prestidigitación" se manifiesta de múltiples maneras:

  • Los modelos etiquetados como “pesos abiertos” pueden prohibir por completo el uso comercial, manteniéndolos más como curiosidades académicas que como herramientas comerciales prácticas para que el público las explore y desarrolle.
  • Algunos proveedores ofrecen acceso a modelos previamente entrenados, pero protegen celosamente sus conjuntos de datos y metodologías de entrenamiento, lo que hace imposible reproducir o verificar sus hallazgos de manera significativa.
  • Muchas plataformas imponen restricciones de redistribución que impiden a los desarrolladores desarrollar o mejorar los modelos para sus comunidades, incluso si pueden “acceder” completamente al código.

En estos casos, "abierto a la investigación" es simplemente una ambigüedad que significa "cerrado al público". El resultado es una forma engañosa de dependencia del proveedor, donde las organizaciones invierten tiempo y recursos en plataformas que parecen de libre acceso, solo para descubrir limitaciones críticas al intentar escalar o comercializar las aplicaciones.

La confusión resultante no solo frustra a los desarrolladores, sino que también socava la confianza en el ecosistema de IA. Genera expectativas poco realistas entre las partes interesadas, que asumen razonablemente que la IA "abierta" es comparable a las comunidades de software de código abierto, donde se respetan la transparencia, los derechos de modificación y la libertad comercial.

Retraso legal

El rápido avance de GenAI ya está superando el desarrollo de marcos legales apropiados, creando una compleja red de desafíos de propiedad intelectual que agravan las preocupaciones preexistentes.

El primer gran conflicto legal se centra en el uso de datos de entrenamiento. Los modelos de aprendizaje profundo obtienen grandes conjuntos de datos de internet, como imágenes públicas y textos de páginas web. Esta recopilación masiva de datos ha generado intensos debates sobre los derechos de propiedad intelectual. Las empresas tecnológicas argumentan que sus sistemas de IA estudian y aprenden de materiales protegidos por derechos de autor para crear contenido nuevo y transformador. Sin embargo, los titulares de derechos de autor sostienen que estas empresas de IA copian ilegalmente sus obras, generando contenido competitivo que amenaza su sustento.

La propiedad de las obras derivadas generadas por IA representa otra ambigüedad legal. Nadie sabe con certeza cómo clasificar el contenido generado por IA, salvo la Oficina de Derechos de Autor de Estados Unidos, que afirma que «si la IA genera contenido en su totalidad, este no puede estar protegido por derechos de autor».

La incertidumbre legal que rodea a GenAI (en particular respecto de las violaciones de derechos de autor, la propiedad de obras generadas por IA y el contenido sin licencia en los datos de entrenamiento) se torna aún más problemática a medida que los modelos fundamentales de IA surgen como herramientas de importancia geopolítica: las naciones que compiten por desarrollar capacidades superiores de IA pueden estar menos inclinadas a restringir el acceso a los datos, lo que coloca a los países con protecciones de propiedad intelectual más estrictas en una desventaja competitiva.

Lo que el código abierto debe llegar a ser en la era de la IA

El tren de GenAI ya partió y no muestra signos de desaceleración. Esperamos construir un futuro donde la IA fomente la innovación, en lugar de frenarla. En ese caso, los líderes tecnológicos necesitan un marco que garantice un uso comercial seguro y transparente, promueva la innovación responsable, aborde la propiedad y las licencias de datos, y diferencie entre "abierto" y "gratuito".

Un concepto emergente, el Licencia de código comercial abierto, puede ofrecer un camino a seguir al proponer acceso gratuito para uso no comercial, acceso con licencia para uso comercial y reconocimiento y respeto por la procedencia y propiedad de los datos.

Para adaptarse a esta nueva realidad, la comunidad de código abierto debe desarrollar modelos de licencias abiertas específicos para IA, formar asociaciones público-privadas para financiar estos modelos y establecer estándares confiables de transparencia, seguridad y ética.

El código abierto cambió el mundo una vez. La IA generativa lo está cambiando de nuevo. Para preservar el espíritu de apertura, debemos evolucionar la letra de sus leyes, reconociendo las demandas únicas de la IA y abordando los desafíos de frente para crear un ecosistema inclusivo y sostenible.

El Dr. Yair Adato es el fundador y director ejecutivo de Bria, la empresa creada para establecer una plataforma abierta de IA generativa sin riesgos. Su visión era crear una plataforma de IA generativa que siguiera los principios de la IA responsable y redefiniera los conceptos de derechos de autor y propiedad intelectual para que la propiedad de los datos y la IA generativa pudieran coexistir.

Visionario en su campo, el Dr. Adato posee un doctorado en Ciencias de la Computación, especializado en visión artificial, por la Universidad Ben-Gurión, en colaboración con la Universidad de Harvard. Con más de 50 patentes que conectan la IA con el uso comercial, el Dr. Adato cuenta con una trayectoria destacada impulsando la innovación en IA. Antes de dirigir Bria, el Dr. Adato fue director de tecnología en Trax Retail, lo que impulsó el rápido crecimiento de Trax, que pasó de ser una startup en fase inicial con 20 empleados a una empresa unicornio con una plantilla cercana a las 1000 personas. Forma parte o ha sido miembro del consejo asesor de varias empresas, entre ellas Sparx, Vicomi, Tasq, DataGen y Anima.