Inteligencia artificial
Google’s Multimodal AI Gemini – A Technical Deep Dive

Sundar Pichai, CEO de Google, junto con Demis Hassabis de Google DeepMind, han presentado Gemini en diciembre de 2023. Este nuevo modelo de lenguaje grande está integrado en toda la gama de productos de Google, ofreciendo mejoras que se extienden por servicios y herramientas utilizadas por millones.
Gemini, el avanzado modelo de inteligencia artificial multimodal de Google, nace de los esfuerzos colaborativos de los laboratorios unificados de DeepMind y Brain AI. Gemini se basa en los hombros de sus predecesores, prometiendo entregar una suite de aplicaciones más interconectada e inteligente.
El anuncio de Google Gemini, situado cerca del debut de Bard, Duet AI y el PaLM 2 LLM, marca una clara intención de Google de no solo competir, sino liderar en la revolución de la inteligencia artificial.
Contrariamente a cualquier noción de un invierno de la inteligencia artificial, el lanzamiento de Gemini sugiere una próspera primavera de la inteligencia artificial, llena de potencial y crecimiento. A medida que reflexionamos sobre un año desde la aparición de ChatGPT, que en sí mismo fue un momento innovador para la inteligencia artificial, el movimiento de Google indica que la expansión de la industria está lejos de terminar; de hecho, puede estar ganando velocidad.
¿Qué es Gemini?
El modelo Gemini de Google es capaz de procesar diversos tipos de datos como texto, imágenes, audio y video. Viene en tres versiones —Ultra, Pro y Nano—, cada una adaptada para aplicaciones específicas, desde razonamiento complejo hasta uso en dispositivos. Ultra sobresale en tareas multifacéticas y estará disponible en Bard Advanced, mientras que Pro ofrece un equilibrio de rendimiento y eficiencia de recursos, ya integrado en Bard para prompts de texto. Nano, optimizado para implementación en dispositivos, viene en dos tamaños y cuenta con optimizaciones de hardware como la cuantificación de 4 bits para uso sin conexión en dispositivos como el Pixel 8 Pro.
La arquitectura de Gemini es única en su capacidad de salida multimodal nativa, utilizando tokens de imagen discretos para la generación de imágenes y integrando características de audio del Modelo de Habla Universal para una comprensión de audio matizada. Su capacidad para manejar datos de video como imágenes secuenciales, entrelazadas con entradas de texto o audio, ejemplifica su destreza multimodal.
Acceso a Gemini
Gemini 1.0 se está implementando en todo el ecosistema de Google, incluyendo Bard, que ahora se beneficia de las capacidades refinadas de Gemini Pro. Google también ha integrado Gemini en sus servicios de Búsqueda, Anuncios y Duet, mejorando la experiencia del usuario con respuestas más rápidas y precisas.
Para aquellos interesados en aprovechar las capacidades de Gemini, Google AI Studio y Google Cloud Vertex ofrecen acceso a Gemini Pro, con este último proporcionando mayores características de personalización y seguridad.
Para experimentar las capacidades mejoradas de Bard impulsado por Gemini Pro, los usuarios pueden seguir los siguientes pasos sencillos:
- Navegar a Bard: Abra su navegador web preferido e ingrese al sitio web de Bard.
- Iniciar sesión seguro: Acceda al servicio iniciando sesión con su cuenta de Google, asegurando una experiencia segura y sin problemas.
- Chat interactivo: Ahora puede usar Bard, donde se pueden aprovechar las características avanzadas de Gemini Pro.
Poder de la multimodalidad:
En su núcleo, Gemini utiliza una arquitectura basada en transformadores, similar a la empleada en modelos de NLP exitosos como GPT-3. Sin embargo, la singularidad de Gemini radica en su capacidad para procesar e integrar información de múltiples modalidades, incluyendo texto, imágenes y código. Esto se logra a través de una técnica novedosa llamada atención entre modalidades, que permite al modelo aprender relaciones y dependencias entre diferentes tipos de datos.
A continuación, se presenta un desglose de los componentes clave de Gemini:
- Codificador multimodal: Este módulo procesa los datos de entrada de cada modalidad (por ejemplo, texto, imagen) de forma independiente, extrayendo características relevantes y generando representaciones individuales.
- Red de atención entre modalidades: Esta red es el corazón de Gemini. Permite al modelo aprender relaciones y dependencias entre las diferentes representaciones, permitiéndoles “hablar” entre sí y enriquecer su comprensión.
- Decodificador multimodal: Este módulo utiliza las representaciones enriquecidas generadas por la red de atención entre modalidades para realizar diversas tareas, como la generación de subtítulos de imágenes, la generación de texto a imagen y la generación de código.
El modelo Gemini no se trata solo de comprender texto o imágenes, se trata de integrar diferentes tipos de información de una manera que se acerca mucho a cómo los humanos percibimos el mundo. Por ejemplo, Gemini puede mirar una secuencia de imágenes y determinar el orden lógico o espacial de los objetos dentro de ellas. También puede analizar las características de diseño de los objetos para hacer juicios, como cuál de dos coches tiene una forma más aerodinámica.
Pero las habilidades de Gemini van más allá de la comprensión visual. Puede convertir un conjunto de instrucciones en código, creando herramientas prácticas como un temporizador de cuenta regresiva que no solo funciona según las instrucciones, sino que también incluye elementos creativos, como emoticonos motivacionales, para mejorar la interacción del usuario. Esto indica una capacidad para manejar tareas que requieren una mezcla de creatividad y funcionalidad, habilidades que a menudo se consideran distintivamente humanas.

Capacidades de Gemini: Razonamiento espacial (Fuente)

Las capacidades de Gemini se extienden a la ejecución de tareas de programación (Fuente)
El diseño sofisticado de Gemini se basa en una rica historia de investigación en redes neuronales y aprovecha la tecnología de punta de TPU de Google para el entrenamiento. Gemini Ultra, en particular, ha establecido nuevos estándares en varios dominios de la inteligencia artificial, mostrando mejoras notables en tareas de razonamiento multimodal.
Con su capacidad para analizar y comprender datos complejos, Gemini ofrece soluciones para aplicaciones del mundo real, especialmente en educación. Puede analizar y corregir soluciones a problemas, como en física, comprendiendo notas manuscritas y proporcionando tiposetting matemático preciso. Tales capacidades sugieren un futuro donde la inteligencia artificial asiste en entornos educativos, ofreciendo a estudiantes y educadores herramientas avanzadas para el aprendizaje y la resolución de problemas.
La capacidad de Gemini se ha aprovechado para crear agentes como AlphaCode 2, que sobresale en problemas de programación competitivos. Esto muestra el potencial de Gemini para actuar como una inteligencia artificial generalista, capaz de manejar problemas complejos y multifacéticos.
Gemini Nano lleva el poder de la inteligencia artificial a dispositivos cotidianos, manteniendo habilidades impresionantes en tareas como la resumen y la comprensión lectora, así como en desafíos relacionados con la codificación y las STEM. Estos modelos más pequeños están ajustados para ofrecer funcionalidades de inteligencia artificial de alta calidad en dispositivos de menor memoria, haciendo que la inteligencia artificial avanzada sea más accesible que nunca.
El desarrollo de Gemini involucró innovaciones en algoritmos de entrenamiento e infraestructura, utilizando las últimas TPUs de Google. Esto permitió un escalado eficiente y procesos de entrenamiento robustos, asegurando que incluso los modelos más pequeños entreguen un rendimiento excepcional.
El conjunto de datos de entrenamiento para Gemini es tan diverso como sus capacidades, incluyendo documentos web, libros, código, imágenes, audio y videos. Este conjunto de datos multimodal y multilingüe garantiza que los modelos de Gemini puedan comprender y procesar una amplia variedad de tipos de contenido de manera efectiva.
Gemini y GPT-4
A pesar de la aparición de otros modelos, la pregunta en la mente de todos es cómo se compara el Gemini de Google con el GPT-4 de OpenAI, el estándar de la industria para los nuevos LLM. Los datos de Google sugieren que, si bien GPT-4 puede destacarse en tareas de razonamiento común, Gemini Ultra tiene la ventaja en casi todas las demás áreas.
La tabla de benchmarking anterior muestra el rendimiento impresionante del modelo de inteligencia artificial Gemini de Google en una variedad de tareas. Notablemente, Gemini Ultra ha logrado resultados notables en el benchmark MMLU con un 90,04% de precisión, indicando su comprensión superior en preguntas de opción múltiple en 57 materias.
En el GSM8K, que evalúa preguntas de matemáticas de escuela primaria, Gemini Ultra obtiene un 94,4%, mostrando sus habilidades aritméticas avanzadas. En las pruebas de codificación, con Gemini Ultra alcanzando una puntuación del 74,4% en HumanEval para la generación de código Python, indicando su fuerte comprensión del lenguaje de programación.
El benchmark DROP, que prueba la comprensión lectora, ve a Gemini Ultra liderando con una puntuación del 82,4%. Mientras que, en una prueba de razonamiento común, HellaSwag, Gemini Ultra se desempeña admirablemente, aunque no supera el benchmark extremadamente alto establecido por GPT-4.
Conclusión
La arquitectura única de Gemini, impulsada por la tecnología de punta de Google, la posiciona como un jugador formidable en el ámbito de la inteligencia artificial, desafiando los estándares existentes establecidos por modelos como GPT-4. Sus versiones —Ultra, Pro y Nano—, cada una atiende a necesidades específicas, desde tareas de razonamiento complejas hasta aplicaciones eficientes en dispositivos, destacando el compromiso de Google para hacer que la inteligencia artificial avanzada sea accesible en diversas plataformas y dispositivos.
La integración de Gemini en el ecosistema de Google, desde Bard hasta Google Cloud Vertex, resalta su potencial para mejorar las experiencias del usuario en una gama de servicios. Promete no solo refinar aplicaciones existentes, sino también abrir nuevas vías para soluciones impulsadas por la inteligencia artificial, ya sea en asistencia personalizada, emprendimientos creativos o análisis empresariales.
A medida que miramos hacia adelante, los continuos avances en modelos de inteligencia artificial como Gemini subrayan la importancia de la investigación y el desarrollo continuos. Los desafíos de entrenar modelos tan sofisticados y garantizar su uso ético y responsable permanecen en el centro del debate.














