Connect with us

Inteligencia artificial

La Batalla de los Modelos de Lenguaje de Código Abierto vs Código Cerrado: Un Análisis Técnico

mm
open source vs close source LLM

Los grandes modelos de lenguaje (LLMs) han cautivado a la comunidad de inteligencia artificial en los últimos años, liderando avances en el procesamiento del lenguaje natural. Detrás del hype se esconde un debate complejo: ¿deben estos poderosos modelos ser de código abierto o de código cerrado?

En este post, analizaremos la diferenciación técnica entre estos enfoques para entender las oportunidades y limitaciones que cada uno presenta. Cubriremos los siguientes aspectos clave:

  • Definir modelos de lenguaje de código abierto vs código cerrado
  • Transparencia arquitectónica y personalización
  • Benchmarck de rendimiento
  • Requisitos computacionales
  • Versatilidad de aplicación
  • Accesibilidad y licencia
  • Privacidad y confidencialidad de los datos
  • Apoyo y respaldo comercial

Al final, tendrás una perspectiva informada sobre los compromisos técnicos entre los modelos de lenguaje de código abierto y código cerrado para guiar tu propia estrategia de inteligencia artificial. ¡Vamos a sumergirnos!

Definiendo Modelos de Lenguaje de Código Abierto vs Código Cerrado

Los modelos de lenguaje de código abierto tienen arquitecturas de modelo, código fuente y parámetros de peso accesibles públicamente. Esto permite a los investigadores inspeccionar los internos, evaluar la calidad, reproducir resultados y construir variantes personalizadas. Ejemplos destacados incluyen ConstitutionalAI de Anthropic, LLaMA de Meta y GPT-NeoX de EleutherAI.

En contraste, los modelos de lenguaje de código cerrado tratan la arquitectura del modelo y los pesos como activos propiedad. Entidades comerciales como Anthropic, DeepMind y OpenAI los desarrollan internamente. Sin código o detalles de diseño accesibles, la reproducibilidad y la personalización enfrentan limitaciones.

Transparencia Arquitectónica y Personalización

El acceso a los internos de los modelos de lenguaje de código abierto desbloquea oportunidades de personalización que simplemente no son posibles con alternativas de código cerrado.

Al ajustar la arquitectura del modelo, los investigadores pueden explorar técnicas como introducir conectividad dispersa entre capas o agregar tokens de clasificación dedicados para mejorar el rendimiento en tareas nicho. Con acceso a los parámetros de peso, los desarrolladores pueden transferir el aprendizaje de representaciones existentes o inicializar variantes con bloques de construcción preentrenados como T5 y BERT embeddings.

Esta personalización permite que los modelos de lenguaje de código abierto sirvan mejor a dominios especializados como la investigación biomédica, la generación de código y la educación. Sin embargo, la experiencia requerida puede elevar la barrera para entregar implementaciones de calidad de producción.

Los modelos de lenguaje de código cerrado ofrecen una personalización limitada, ya que sus detalles técnicos permanecen propiedad. Sin embargo, sus partidarios comprometen recursos extensivos para la investigación y el desarrollo internos. Los sistemas resultantes empujan el límite de lo que es posible con una arquitectura de modelo de lenguaje generalizada.

Así que, aunque menos flexibles, los modelos de lenguaje de código cerrado destacan en tareas de lenguaje natural ampliamente aplicables. También simplifican la integración al ajustarse a interfaces establecidas como el estándar OpenAPI.

Benchmarck de Rendimiento

A pesar de la transparencia arquitectónica, medir el rendimiento de los modelos de lenguaje de código abierto introduce desafíos. Su flexibilidad permite innumerables configuraciones y estrategias de ajuste posibles. También permite que los modelos con el prefijo “código abierto” incluyan en realidad técnicas propiedad que distorsionan las comparaciones.

Los modelos de lenguaje de código cerrado se jactan de objetivos de rendimiento claramente definidos, ya que sus partidarios realizan benchmarks y publicitan umbrales de métricas específicas. Por ejemplo, Anthropic publicita la precisión de ConstitutionalAI en conjuntos de problemas de NLU curados. Microsoft destaca cómo GPT-4 supera los umbrales humanos en la herramienta de comprensión del lenguaje SuperGLUE.

Dicho esto, estos benchmarks estrechos enfrentaron críticas por exagerar el rendimiento en tareas del mundo real y subrepresentar los fallos. La evaluación verdaderamente imparcial de los LLM sigue siendo una pregunta de investigación abierta, tanto para enfoques de código abierto como de código cerrado.

Requisitos Computacionales

Entrenar grandes modelos de lenguaje exige recursos computacionales extensivos. OpenAI gastó millones entrenando GPT-3 en infraestructura en la nube, mientras que Anthropic consumió hasta $10 millones en GPUs para ConstitutionalAI.

La factura para dichos modelos excluye a la mayoría de los individuos y equipos pequeños de la comunidad de código abierto. De hecho, EleutherAI tuvo que eliminar el modelo GPT-J del acceso público debido a los costos de alojamiento en explosión.

Sin bolsillos profundos, los éxitos de los modelos de lenguaje de código abierto aprovechan recursos computacionales donados. LAION curó su modelo LAION-5B centrado en tecnología utilizando datos subidos por la multitud. El proyecto sin fines de lucro Anthropic ConstitutionalAI utilizó computación de voluntarios.

El respaldo de grandes empresas como Google, Meta y Baidu proporciona a los esfuerzos de código cerrado el combustible financiero necesario para industrializar el desarrollo de LLM. Esto permite una escalabilidad hasta longitudes inimaginables para las iniciativas de base. Solo véase el modelo Gopher de 280 mil millones de parámetros de DeepMind.

Versatilidad de Aplicación

La personalización de los modelos de lenguaje de código abierto capacita para abordar casos de uso altamente especializados. Los investigadores pueden modificar agresivamente los internos del modelo para mejorar el rendimiento en tareas nicho como la predicción de la estructura de proteínas, la generación de documentación de código y la verificación de pruebas matemáticas.

Dicho esto, la capacidad de acceder y editar el código no garantiza una solución efectiva para un dominio específico sin los datos adecuados. Los conjuntos de datos de entrenamiento comprehensivos para aplicaciones estrechas requieren un esfuerzo significativo para curar y mantener actualizados.

Aquí los modelos de lenguaje de código cerrado se benefician de los recursos para obtener datos de entrenamiento de repositorios internos y socios comerciales. Por ejemplo, DeepMind licencia bases de datos como ChEMBL para química y UniProt para proteínas para expandir el alcance de la aplicación. El acceso a datos a escala industrial permite que los modelos como Gopher logren una notable versatilidad a pesar de la opacidad arquitectónica.

Accesibilidad y Licencia

La licencia permisiva de los modelos de lenguaje de código abierto promueve el acceso gratuito y la colaboración. Modelos como GPT-NeoX, LLaMA y Jurassic-1 Jumbo utilizan acuerdos como Creative Commons y Apache 2.0 para permitir la investigación no comercial y la comercialización justa.

En contraste, los modelos de lenguaje de código cerrado llevan licencias restrictivas que limitan la disponibilidad del modelo. Las entidades comerciales controlan estrictamente el acceso para salvaguardar los flujos de ingresos potenciales de las API de predicción y las asociaciones empresariales.

Es comprensible que organizaciones como Anthropic y Cohere cobren por el acceso a las interfaces ConstitutionalAI y Cohere-512. Sin embargo, esto riesga excluir importantes dominios de investigación, sesgando el desarrollo hacia industrias bien financiadas.

La licencia abierta plantea desafíos también, particularmente en torno a la atribución y la responsabilidad. Para los casos de uso de investigación, sin embargo, las libertades otorgadas por la accesibilidad de código abierto ofrecen ventajas claras.

Privacidad y Confidencialidad de los Datos

Los conjuntos de datos de entrenamiento para los LLM generalmente agregan contenido de diversas fuentes en línea como páginas web, artículos científicos y foros de discusión. Esto riesga exponer información personalmente identificable u otra información sensible en las salidas del modelo.

Para los modelos de lenguaje de código abierto, examinar la composición del conjunto de datos proporciona la mejor barrera contra problemas de confidencialidad. Evaluar las fuentes de datos, los procedimientos de filtrado y documentar ejemplos preocupantes encontrados durante las pruebas puede ayudar a identificar vulnerabilidades.

Desafortunadamente, los modelos de lenguaje de código cerrado impiden dicha auditoría pública. En cambio, los consumidores deben confiar en la rigidez de los procesos de revisión interna basados en políticas anunciadas. Por contexto, Azure Cognitive Services promete filtrar los datos personales, mientras que Google especifica revisiones formales de privacidad y etiquetado de datos.

En general, los modelos de lenguaje de código abierto capacitan una identificación más proactiva de los riesgos de confidencialidad en los sistemas de inteligencia artificial antes de que esos fallos se manifiesten a gran escala. Los contrapartes cerrados ofrecen transparencia relativamente limitada en las prácticas de manejo de datos.

Apoyo y Respaldo Comercial

La posibilidad de monetizar los modelos de lenguaje de código cerrado incentiva una inversión comercial significativa para el desarrollo y el mantenimiento. Por ejemplo, anticipando retornos lucrativos de su cartera Azure AI, Microsoft acordó asociaciones de varios miles de millones de dólares con OpenAI alrededor de los modelos GPT.

En contraste, los modelos de lenguaje de código abierto dependen de voluntarios que asignan tiempo personal para el mantenimiento o subvenciones que proporcionan financiación a corto plazo. Esta asimetría de recursos riesga la continuidad y la longevidad de los proyectos de código abierto.

Sin embargo, las barreras para la comercialización también liberan a las comunidades de código abierto para centrarse en el progreso científico sobre el beneficio. Y la naturaleza descentralizada de los ecosistemas abiertos mitiga la dependencia excesiva del interés sostenido de cualquier partidario individual.

En última instancia, cada enfoque conlleva compromisos en torno a los recursos y los incentivos. Los modelos de lenguaje de código cerrado disfrutan de una mayor seguridad de financiación, pero concentran la influencia. Los ecosistemas abiertos promueven la diversidad, pero sufren una incertidumbre aumentada.

Navegando el Paisaje de Modelos de Lenguaje de Código Abierto vs Código Cerrado

Decidir entre modelos de lenguaje de código abierto o código cerrado requiere emparejar las prioridades organizacionales como la personalización, la accesibilidad y la escalabilidad con las capacidades del modelo.

Para los investigadores y las startups, el código abierto otorga más control para ajustar los modelos a tareas específicas. La licencia también facilita el intercambio gratuito de conocimientos entre colaboradores. Sin embargo, la carga de obtener datos de entrenamiento y la infraestructura puede socavar la viabilidad en el mundo real.

Por el contrario, los modelos de lenguaje de código cerrado prometen mejoras significativas en la calidad, gracias a la financiación y los datos abundantes. Sin embargo, las restricciones en torno al acceso y las modificaciones limitan la transparencia científica, mientras que atan las implementaciones a las hojas de ruta de los proveedores.

En la práctica, los estándares abiertos alrededor de las especificaciones de arquitectura, los puntos de control del modelo y los datos de evaluación pueden ayudar a compensar las desventajas de ambos enfoques. Fundamentos compartidos como el Transformer de Google o los benchmarks REALTO de Oxford mejoran la reproducibilidad. Los estándares de interoperabilidad como ONNX permiten mezclar componentes de fuentes abiertas y cerradas.

En última instancia, lo que importa es elegir la herramienta adecuada, ya sea de código abierto o cerrado, para el trabajo en cuestión. Las entidades comerciales que respaldan los modelos de lenguaje de código cerrado llevan una influencia indiscutible. Pero la pasión y los principios de las comunidades de ciencia abierta seguirán desempeñando un papel crucial en la conducción del progreso de la inteligencia artificial.

He pasado los últimos cinco años sumergiéndome en el fascinante mundo del Aprendizaje Automático y el Aprendizaje Profundo. Mi pasión y experiencia me han llevado a contribuir a más de 50 proyectos de ingeniería de software diversos, con un enfoque particular en AI/ML. Mi curiosidad continua también me ha llevado hacia el Procesamiento de Lenguaje Natural, un campo que estoy ansioso por explorar más a fondo.