Gemini: una visió general de les seves característiques i models innovadors
Gemini és una família de chatbots basats en la intel·ligència artificial desenvolupada per Google. Ara mateix, Gemini ocupa el tercer lloc entre tots els chatbots pel que fa a quota de mercat, només darrere de ChatGPT i Microsoft Copilot. Al mateix temps, Gemini continua creixent més ràpidament que els seus competidors i està guanyant popularitat constantment: ocupa el quart lloc en termes d'entrada d'usuaris nous, amb només Claude creixent més ràpidament entre els xatbots coneguts. En aquest article analitzarem la història de Gemini, els models actuals, les seves característiques i limitacions.
Una breu història de Google Gemini
Google ha estat pioner en l'arquitectura de grans models de llenguatge i es basa en la seva sòlida investigació per desenvolupar els seus propis models d'intel·ligència artificial.
- 2017: els investigadors de Google presenten l'arquitectura del transformador, que sustenta molts dels grans models lingüístics actuals.
- 2020: La companyia presenta Meena, un chatbot basat en xarxes neuronals amb 2.600 milions de paràmetres, que Google va afirmar que era superior a la resta de chatbots existents en aquell moment.
- 2021: Meena va canviar el nom a LaMDA (abreviatura de Language Model for Dialogue Applications) a mesura que augmentaven les seves dades i la seva potència de càlcul.
- 2022: es llança un nou model de llenguatge anomenat PaLM (Pathways Language Model), amb capacitats més avançades en comparació amb LaMDA.
- 2023: un chatbot anomenat Google Bard es llança durant el primer trimestre de l'any, amb el suport d'una versió lleugera i optimitzada de LaMDA.Després, al segon trimestre, van presentar PaLM 2, amb una codificació millorada, capacitats multilingües i habilitats de raonament millorades, que Bard va adoptar. Finalment, en l'últim trimestre, Google va anunciar Gemini 1.0.
- 2024: Google canvia el nom de Bard com a Gemini i actualitza els seus models d'IA multimodal a la versió 1.5. Els models Gemini 2.0 es presenten al desembre.
L'abril de 2024, el director general de Google DeepMind, Demis Hassabis, va dir que amb el temps la companyia gastarà més de 100.000 milions de dòlars en el desenvolupament de tecnologia d'intel·ligència artificial.

Demis Hassabis
Trets distintius de Geminis
Cada chatbot té un coneixement limitat dels esdeveniments recents perquè les seves dades d'entrenament només abasten un període de temps finit. Una data de tall en el context dels chatbots fa referència al moment en el qual el model ha estat entrenat en dades i pot proporcionar informació. Per exemple, si un chatbot té una data de tall d'octubre de 2023, vol dir que tot el coneixement i les dades als quals té accés són actuals només fins a aquesta data. Qualsevol esdeveniment, desenvolupament o canvi que s'hagi produït després d'aquesta data no es reflectirà a les respostes del chatbot. Aquesta limitació és important que els usuaris la comprenguin, ja que afecta l'exactitud i la rellevància de la informació proporcionada, especialment en camps que canvien ràpidament com la tecnologia, la política o l'actualitat. Tanmateix, Gemini pot evitar aquesta limitació accedint i processant la informació de les cerques en línia mitjançant la Cerca de Google, proporcionant respostes més actualitzades.
En conseqüència, és possible que els usuaris hagin de verificar la informació de fonts més recents si busquen les últimes actualitzacions o coneixements. De vegades, Gemini us mostra fonts i contingut relacionat dins i per sota de la seva resposta. Aquests inclouen fonts web amb informació similar i enllaços perquè pugueu aprofundir.Gemini està dissenyat per generar contingut original, però si es cita directament d'una pàgina web, veureu una cometa amb la font citada i un enllaç a aquesta pàgina. Les fonts i el contingut relacionat poden incloure llocs web que Gemini va citar o que es relacionen amb parts de la seva resposta. Si la resposta de Gemini inclou una miniatura d'una imatge del web, mostrarà la font i proporcionarà un enllaç directament a ella.

Gemini es va dissenyar multimodal des del primer moment, és a dir, es va entrenar en diversos tipus de dades, i ara pot funcionar perfectament amb diferents tipus de contingut. Com podeu veure a la imatge de dalt, el bot pot incloure imatges a les seves respostes. Bessons pot entendre text, àudio, fragments de vídeo, notes manuscrites, gràfics, diagrames, pot identificar objectes a les fotos i, a més, pot generar imatges amb Imagen 3, el model de text a imatge més avançat de Google.
El chatbot també té àmplies capacitats multilingües, ja que està disponible en 46 idiomes diferents.
Models actuals, els seus punts forts i capacitats
Gemini ofereix diferents models optimitzats per a casos d'ús específics. Aquí teniu una breu visió general de les variants disponibles:
Model | Entrada | Sortida | Descripció |
Gemini 2.0 Flash | Àudio, imatges, vídeos i text | Text, imatges (properament) i àudio (properament) | Funcions de nova generació, velocitat i generació multimodal per a una gran varietat de tasques |
Gemini 2.0 Flash Thinking | Text, imatges | Text | Model de raonament millorat que destaca en ciències i matemàtiques |
Gemini 1.5 Flash | Àudio, imatges, vídeos i text | Text | Rendiment ràpid i versàtil en una gran varietat de tasques |
Gemini 1.5 Flash-8B | Àudio, imatges, vídeos i text | Text | Tasques d'alt volum i menor intel·ligència |
Gemini 1.5 Pro | Àudio, imatges, vídeos i text | Text | Tasques de raonament complexes que requereixen més intel·ligència |
Gemini 1.5 Flash inclou una finestra de context d'1 milió de tokens, i Gemini 1.5 Pro inclou una finestra de context de 2 milions de tokens, que és la més llarga de qualsevol model d'idioma gran.
Un token equival a uns 4 caràcters per als models Gemini. 100 tokens són unes 60-80 paraules en anglès.
A la pràctica, 1 milió de tokens tindrien l'aspecte següent:
- 50.000 línies de codi (amb els 80 caràcters estàndard per línia).
- Transcripcions de més de 200 episodis de podcast de durada mitjana.
- 8 novel·les angleses de durada mitjana.
- Tots els missatges de text que has enviat en els últims 5 anys.
Gemini 1.5 Flash and Flash-8B | |
| Límit de tokens d'entrada | 1,048,576 |
| Límit de tokens de sortida | 8,192 |
| Nombre màxim d'imatges | 3,600 |
| Durada màxima del vídeo | 1 hora |
| Durada màxima d'àudio | Aproximadament 9,5 hores |
Gemini 1.5 Pro aconsegueix un record gairebé perfecte en tasques de recuperació de context llarg en totes les modalitats, desbloquejant la capacitat de processar amb precisió documents llargs, milers de línies de codi, hores d'àudio, vídeo i molt més.
Gemini 1.5 Pro | |
| Límit de tokens d'entrada | 2,097,152 |
| Límit de tokens de sortida | 8,192 |
| Nombre màxim d'imatges | 7,200 |
| Durada màxima del vídeo | 2 hores |
| Durada màxima d'àudio | Aproximadament 19 hores |
Cada imatge equival a 258 tokens. Tipus d'imatge compatibles:
- PNG
- WEBP
- JPEG
- HEIC
- HEIF
Tot i que no hi ha límits específics per al nombre de píxels d'una imatge a part de la finestra de context del model, les imatges més grans es redueixen a una resolució màxima de 3072x3072 mentre es conserven la seva relació d'aspecte original, mentre que les imatges més petites s'escalen fins a 768x768 píxels.
Capacitats de visió:
- Subtítols i respondre preguntes sobre imatges.
- Transcriviu i raoneu els PDF, inclosos documents llargs fins a 2 milions de finestra de context de tokens.
- Descriure, segmentar i extreure informació dels vídeos, inclosos els marcs visuals i l'àudio, de fins a 90 minuts de durada.

Gemini és capaç de reconèixer correctament tot el contingut escrit a mà i verificar el raonament.
Capacitats d'àudio de Gemini:
- Descriu, resumeix o respon a preguntes sobre contingut d'àudio.
- Proporcioneu una transcripció de l'àudio.
- Proporcioneu respostes o una transcripció sobre un segment específic de l'àudio.
Formats d'àudio compatibles:
- WAV
- MP3
- FLAC
- OGG Vorbis
- AIFF
- AAC
Cada segon d'àudio equival a 25 tokens; per exemple, un minut d'àudio es representa com 1.500 tokens.
Gemini 2.0 Flash | |
| Límit de tokens d'entrada | 1,048,576 |
| Límit de tokens de sortida | 8,192 |
Gemini 2.0 Flash és el model més potent i versàtil de la família Gemini. Pot crear imatges de manera nativa i generar veu, i quan es tracta de rendiment, supera altres models en gairebé tots els punts de referència clau. Comproveu per vosaltres mateixos.
| Capacitat | Referent | Descripció | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 2.0 Flash |
| General | MMLU-Pro | Avalua fins a quin punt els models d'aprenentatge automàtic entenen el llenguatge natural | 67.3% | 75.8% | 76.4% |
| Codi | Natural2Code | Generació de codi a Python, Java, C++, JS, Go | 79.8% | 85.4% | 92.9% |
| Codi | Bird-SQL (Dev) | Avalua la conversió de preguntes de llenguatge natural en SQL executable | 45.6% | 54.4% | 56.9% |
| Factualitat | FACTS Grounding | Capacitat de proporcionar respostes correctes de fets donats documents i sol·licituds diverses dels usuaris | 82.9% | 80.0% | 83.6% |
| Matemàtiques | MATH | Problemes de matemàtiques difícils (incloent àlgebra, geometria, precàlcul i altres) | 77.9% | 86.5% | 89.7% |
| Matemàtiques | HiddenMath | Problemes de matemàtiques a nivell de competició | 47.2% | 52.0% | 63.0% |
| Raonament | GPQA (diamond) | Conjunt de dades desafiant de preguntes escrites per experts del domini en biologia, física i química | 51.0% | 59.1% | 62.1% |
| Imatge | MMMU | Problemes de raonament i comprensió multimodal de nivell universitari multidisciplinari | 62.3% | 65.9% | 70.7% |
| Àudio | CoVoST2 (21 lang) | Traducció automàtica de veu | 37.4 | 40.1 | 39.2 |
| Vídeo | EgoSchema (test) | Anàlisi de vídeo | 66.8% | 71.2% | 71.5% |
Gemini 2.0 Flash Thinking combina velocitat i rendiment, demostrant una experiència notable per abordar problemes complexos tant de matemàtiques com de ciències. Una finestra de context d'un milió de tokens permet una anàlisi més profunda del text de format llarg. El pensament millorat proporciona més coherència entre pensaments i respostes.
Gemini 2.0 Flash Thinking | |
| Límit de tokens d'entrada | 1,048,576 |
| Límit de tokens de sortida | 65,536 |
Tingueu en compte la gran finestra de tokens de sortida. Permet al model no només processar sol·licituds llargues, sinó també donar respostes àmplies, que poden ser útils per generar grans blocs de codi, per exemple.
Vegeu com Gemini 2.0 Flash Thinking supera Gemini 1.5 Pro i Gemini 2.0 en matemàtiques, ciències i raonament multimodal. Pot ser que no sigui tan versàtil com aquests dos models en general, però en aquests dominis específics, Gemini 2.0 Flash Thinking és inigualable.

Matemàtiques, ciència i raonament

Matemàtiques, i ciències
Crítica
El chatbot Gemini va tenir un començament difícil quan es va llançar l'any 2023. Els desenvolupadors tenien massa pressa per llançar un rival a ChatGPT. I és per això que la versió de llançament del chatbot estava plena d'errors. Els usuaris es van queixar d'un gran nombre d'errors de fet i inexactituds en les respostes del bot.
Una de les més destacades va ser la polèmica de generació d'imatges. Gemini va intentar presentar la màxima diversitat racial fins i tot quan no era apropiat. Segons el chatbot, així eren els soldats alemanys el 1943:

I així es veien els senadors nord-americans del 1800:

A causa del descontentament dels usuaris, les accions de l'empresa van caure un 4,5%, la qual cosa correspon aproximadament a una pèrdua de 90 milions de dòlars. Els desenvolupadors també van haver de bloquejar temporalment la capacitat de generar imatges de persones.
Després de la controvèrsia sobre la generació d'imatges, alguns usuaris van començar a acusar les respostes de text de Gemini d'estar esbiaixades cap a l'esquerra. En un d'aquests exemples, Gemini va afirmar que era "difícil dir definitivament" si Elon Musk o el dictador nazi Adolf Hitler van tenir un impacte negatiu més gran en la societat. A més, altres usuaris van assenyalar que Gemini semblava afavorir els polítics d'esquerres i qüestions com l'acció afirmativa i els drets a l'avortament, tot i que es mostrava reticent a donar suport a les figures de la dreta, el consum de carn i els combustibles fòssils.
Però cal dir que totes aquestes dificultats estan majoritàriament enrere ara. Ara Gemini no té problemes i és un dels chatbots més reeixits i populars del món.