Intel·ligència Artificial

AI multimodal Gemini de Google: una immersió tècnica profunda

actualitzat on Desembre 11, 2023

Primer model multimodal de Google: Gemini

Sundar Pichai, CEO de Google, juntament amb Demis Hassabis de Google DeepMind, ho han fet va presentar Gemini el desembre de 2023. Aquest nou gran model d'idioma s'integra a l'ampli ventall de productes de Google, oferint millores que s'ofereixen a través de serveis i eines que fan servir milions de persones.

Gemini, l'IA multimodal avançada de Google, neix dels esforços col·laboratius dels laboratoris unificats de DeepMind i Brain AI. Gemini està a les espatlles dels seus predecessors, prometent oferir un conjunt d'aplicacions més interconnectat i intel·ligent.

L'anunci de Google Gemini, molt enclavat després del debut de Bard, Duet AI i PaLM 2 LLM, marca una clara intenció de Google no només de competir sinó de liderar la revolució de la IA.

Contràriament a qualsevol idea d'un hivern d'IA, el llançament de Gemini suggereix una pròspera primavera d'IA, plena de potencial i creixement. Mentre reflexionem sobre un any des de l'aparició de ChatGPT, que en si mateix va ser un moment innovador per a la IA, el moviment de Google indica que l'expansió del sector està lluny d'haver acabat; de fet, pot ser que només estigui agafant el ritme.

Què és Bessons?

El model Gemini de Google és capaç de processar diversos tipus de dades, com ara text, imatges, àudio i vídeo. Ve en tres versions:Ultra, proi Nano—cadascun adaptat per a aplicacions específiques, des del raonament complex fins a l'ús al dispositiu. Ultra sobresurt en tasques polièdriques i estarà disponible a Bard Advanced, mentre que Pro ofereix un equilibri de rendiment i eficiència dels recursos, ja integrat a Bard per a sol·licituds de text. Nano, optimitzat per al desplegament al dispositiu, es presenta en dues mides i inclou optimitzacions de maquinari com la quantificació de 4 bits per utilitzar-lo fora de línia en dispositius com el Pixel 8 Pro.

L'arquitectura de Gemini és única en la seva capacitat de sortida multimodal nativa, utilitzant fitxes d'imatge discretes per a la generació d'imatges i integrant funcions d'àudio del Model de parla universal per a una comprensió d'àudio matisada. La seva capacitat per manejar dades de vídeo com a imatges seqüencials, entrellaçades amb entrades de text o àudio, exemplifica la seva habilitat multimodal.

Gemini admet seqüències de text, imatge, àudio i vídeo com a entrades

Accés a Gemini

Gemini 1.0 s'està desplegant a tot l'ecosistema de Google, inclòs Bard, que ara es beneficia de les capacitats refinades de Gemini Pro. Google també ha integrat Gemini als seus serveis de cerca, anuncis i Duet, millorant l'experiència de l'usuari amb respostes més ràpides i precises.

Per a aquells que vulguin aprofitar les capacitats de Gemini, Google AI Studio i Google Cloud Vertex ofereixen accés a Gemini Pro, i aquest últim ofereix una major personalització i funcions de seguretat.

Per experimentar les capacitats millorades de Bard amb Gemini Pro, els usuaris poden seguir els següents passos senzills:

Navega fins a Bard: Obriu el vostre navegador web preferit i aneu al lloc web de Bard.
Inici de sessió segur: accediu al servei iniciant la sessió amb el vostre compte de Google, assegurant una experiència perfecta i segura.
Xat interactiu: Ara podeu utilitzar Bard, on es poden optar a les funcions avançades de Gemini Pro.

Poder de la multimodalitat:

En el seu nucli, Gemini utilitza una arquitectura basada en transformadors, similar a les que s'utilitzen en models de NLP reeixits com GPT-3. Tanmateix, la singularitat de Gemini rau en la seva capacitat per processar i integrar informació de múltiples modalitats, com ara text, imatges i codi. Això s'aconsegueix mitjançant una nova tècnica anomenada atenció transmodal, que permet al model aprendre relacions i dependències entre diferents tipus de dades.

Aquí teniu un desglossament dels components clau de Gemini:

Codificador multimodal: Aquest mòdul processa les dades d'entrada de cada modalitat (p. ex., text, imatge) de manera independent, extreu característiques rellevants i genera representacions individuals.
Xarxa d'atenció multimodal: Aquesta xarxa és el cor de Gemini. Permet que el model aprengui les relacions i dependències entre les diferents representacions, permetent-los "parlar" entre ells i enriquir la seva comprensió.
Descodificador multimodal: Aquest mòdul utilitza les representacions enriquides generades per la xarxa d'atenció multimodal per realitzar diverses tasques, com ara subtítols d'imatges, generació de text a imatge i generació de codi.

El model Gemini no només consisteix en entendre text o imatges, sinó que es tracta d'integrar diferents tipus d'informació d'una manera molt més propera a com percebem el món com a humans. Per exemple, Bessons pot mirar una seqüència d'imatges i determinar l'ordre lògic o espacial dels objectes dins d'elles. També pot analitzar les característiques de disseny dels objectes per fer judicis, com ara quin dels dos cotxes té una forma més aerodinàmica.

Però els talents de Gemini van més enllà de la comprensió visual. Pot convertir un conjunt d'instruccions en codi, creant eines pràctiques com un temporitzador de compte enrere que no només funciona segons les instruccions, sinó que també inclou elements creatius, com ara emojis de motivació, per millorar la interacció de l'usuari. Això indica una capacitat per gestionar tasques que requereixen una combinació de creativitat i funcionalitat, habilitats que sovint es consideren clarament humanes.

Capacitats de Bessons: raonament espacial (font)

Les capacitats de Gemini s'estenen a l'execució de tasques de programació (font)

El disseny sofisticat de Gemini es basa en una rica història d'investigació de xarxes neuronals i aprofita la tecnologia TPU d'avantguarda de Google per a la formació. Gemini Ultra, en particular, ha establert nous punts de referència en diversos dominis d'IA, mostrant augments de rendiment notables en tasques de raonament multimodal.

Amb la seva capacitat per analitzar i entendre dades complexes, Gemini ofereix solucions per a aplicacions del món real, especialment en educació. Pot analitzar i corregir solucions a problemes, com en la física, comprenent notes escrites a mà i proporcionant una composició matemàtica precisa. Aquestes capacitats suggereixen un futur on la IA ajuda en els entorns educatius, oferint als estudiants i educadors eines avançades per a l'aprenentatge i la resolució de problemes.

Gemini's s'ha aprofitat per crear agents com AlphaCode 2, que sobresurt en problemes de programació competitius. Això mostra el potencial de Gemini per actuar com a IA generalista, capaç de gestionar problemes complexos i de diversos passos.

Gemini Nano aporta el poder de la IA als dispositius quotidians, mantenint habilitats impressionants en tasques com el resum i la comprensió lectora, així com la codificació i els reptes relacionats amb STEM. Aquests models més petits estan ajustats per oferir funcionalitats d'IA d'alta qualitat en dispositius amb poca memòria, fent que la IA avançada sigui més accessible que mai.

El desenvolupament de Gemini va implicar innovacions en algorismes d'entrenament i infraestructura, utilitzant les últimes TPU de Google. Això va permetre un escalat eficient i processos d'entrenament robustos, assegurant que fins i tot els models més petits ofereixen un rendiment excepcional.

El conjunt de dades d'entrenament per a Gemini és tan divers com les seves capacitats, com ara documents web, llibres, codi, imatges, àudio i vídeos. Aquest conjunt de dades multimodal i multilingüe garanteix que els models Gemini puguin entendre i processar una gran varietat de tipus de contingut de manera eficaç.

Gemini i GPT-4

Malgrat l'aparició d'altres models, la pregunta en la ment de tothom és com es compara el Gemini de Google amb el GPT-4 d'OpenAI, el referent de la indústria per als nous LLM. Les dades de Google suggereixen que, tot i que GPT-4 pot excel·lir en tasques de raonament de sentit comú, Gemini Ultra té el avantatge en gairebé totes les altres àrees.

Gemini VS GPT-4

La taula de benchmarking anterior mostra el rendiment impressionant de l'IA Gemini de Google en una varietat de tasques. En particular, Gemini Ultra ha aconseguit resultats notables en el punt de referència MMLU amb un 90.04% de precisió, cosa que indica la seva comprensió superior en preguntes d'elecció múltiple en 57 temes.

Al GSM8K, que avalua les preguntes de matemàtiques de primària, Gemini Ultra obté un 94.4%, mostrant les seves habilitats avançades de processament aritmètic. En els punts de referència de codificació, amb Gemini Ultra aconseguint una puntuació del 74.4% a la generació de codi HumanEval per a Python, cosa que indica la seva forta comprensió del llenguatge de programació.

El punt de referència DROP, que posa a prova la comprensió lectora, Gemini Ultra torna a liderar amb una puntuació del 82.4%. Mentrestant, en una prova de raonament de sentit comú, HellaSwag, Gemini Ultra té un rendiment admirable, tot i que no supera el punt de referència extremadament alt establert per GPT-4.

Conclusió

L'arquitectura única de Gemini, impulsada per la tecnologia d'avantguarda de Google, el posiciona com un jugador formidable en l'àmbit de la IA, desafiant els punts de referència existents establerts per models com el GPT-4. Les seves versions (Ultra, Pro i Nano) responen a necessitats específiques, des de tasques de raonament complexes fins a aplicacions eficients al dispositiu, mostrant el compromís de Google de fer que la intel·ligència artificial avançada sigui accessible a diferents plataformes i dispositius.

La integració de Gemini a l'ecosistema de Google, des de Bard fins a Google Cloud Vertex, destaca el seu potencial per millorar les experiències dels usuaris en tot un espectre de serveis. Promet no només perfeccionar les aplicacions existents, sinó també obrir noves vies per a solucions basades en IA, ja sigui en assistència personalitzada, esforços creatius o anàlisi empresarial.

A mesura que mirem cap endavant, els avenços continus en models d'IA com Gemini subratllen la importància de la investigació i el desenvolupament en curs. Els reptes de la formació de models tan sofisticats i d'assegurar-ne un ús ètic i responsable es mantenen al capdavant de la discussió.

Temes relacionats:Bessons ai generativa Google GPT

Fins a la propera

Ride the Hype: esdeveniments d'IA a la zona de la badia

No et perdis

Google acusat d'enganyar amb un vídeo d'anunci de Gemini

Aayush Mittal

He passat els últims cinc anys submergint-me en el fascinant món de l'aprenentatge automàtic i l'aprenentatge profund. La meva passió i experiència m'han portat a contribuir a més de 50 projectes diversos d'enginyeria de programari, amb un enfocament particular en IA/ML. La meva curiositat contínua també m'ha atret cap al processament del llenguatge natural, un camp que tinc ganes d'explorar més.