Gemini: una panoramica delle sue caratteristiche e dei suoi modelli innovativi
Gemini è una famiglia di chatbot basati sull'intelligenza artificiale sviluppati da Google. Attualmente, Gemini è al terzo posto tra tutti i chatbot in termini di quota di mercato, dietro solo a ChatGPT e Microsoft Copilot. Allo stesso tempo, Gemini continua a crescere più velocemente dei suoi concorrenti e sta guadagnando popolarità: è al quarto posto in termini di afflusso di nuovi utenti, con solo Claude che cresce più velocemente tra i chatbot noti. In questo articolo analizzeremo la storia di Gemini, i modelli attuali, le loro caratteristiche e i loro limiti.
Breve storia di Google Gemini
Google è stato un pioniere nell'architettura dei modelli linguistici di grandi dimensioni e si basa sulla sua solida ricerca per sviluppare i propri modelli di intelligenza artificiale.
- 2017: I ricercatori di Google presentano l'architettura transformer, alla base di molti degli attuali modelli linguistici di grandi dimensioni.
- 2020: L'azienda presenta Meena, un chatbot basato su reti neurali con 2,6 miliardi di parametri, che Google sostiene essere superiore a tutti gli altri chatbot esistenti all'epoca.
- 2021: Meena viene rinominato LaMDA (abbreviazione di Language Model for Dialogue Applications) in seguito all'aumento dei dati e della potenza di calcolo.
- 2022: Viene rilasciato un nuovo modello linguistico chiamato PaLM (Pathways Language Model), con capacità più avanzate rispetto a LaMDA.
- 2023: Nel primo trimestre dell'anno viene rilasciato un chatbot chiamato Google Bard, supportato da una versione leggera e ottimizzata di LaMDA. Poi, nel secondo trimestre, viene introdotto PaLM 2, con una codifica migliorata, funzionalità multilingue e maggiori capacità di ragionamento, che Bard adotta. Infine, nell'ultimo trimestre, Google ha annunciato Gemini 1.0.
- 2024: Google rinomina Bard come Gemini e aggiorna i suoi modelli di intelligenza artificiale multimodale alla versione 1.5. I modelli Gemini 2.0 vengono introdotti a dicembre.
Nell'aprile del 2024 l'amministratore delegato di Google DeepMind, Demis Hassabis, dichiara che nel tempo l'azienda spenderà più di 100 miliardi di dollari per sviluppare la tecnologia dell'intelligenza artificiale.

Demis Hassabis
Le caratteristiche distintive di Gemini
Ogni chatbot ha una conoscenza limitata degli eventi recenti perché i suoi dati di addestramento comprendono solo un periodo di tempo limitato. Una data limite nel contesto dei chatbot si riferisce al momento in cui il modello è stato addestrato sui dati e può fornire informazioni. Ad esempio, se un chatbot ha una data limite di ottobre 2023, significa che tutte le conoscenze e i dati a cui ha accesso sono aggiornati solo fino a quella data. Qualsiasi evento, sviluppo o cambiamento avvenuto dopo tale data non si rifletterà nelle risposte del chatbot. Questa limitazione è importante per gli utenti, poiché influisce sull'accuratezza e sulla pertinenza delle informazioni fornite, soprattutto in campi in rapida evoluzione come la tecnologia, la politica o l'attualità. Tuttavia, Gemini può aggirare questa limitazione accedendo ed elaborando le informazioni provenienti da ricerche online tramite Google Search, fornendo risposte più aggiornate.
Di conseguenza, gli utenti potrebbero dover verificare le informazioni provenienti da fonti più recenti se sono alla ricerca degli ultimi aggiornamenti o approfondimenti. A volte, Gemini mostra fonti e contenuti correlati all'interno e al di sotto della sua risposta. Queste includono fonti web con informazioni simili e link per approfondire. Gemini è progettato per generare contenuti originali, ma se cita direttamente una pagina web, vedrete un segno di citazione con la fonte citata e un link alla pagina. Le fonti e i contenuti correlati possono includere siti web che Gemini ha citato o che si riferiscono a parti della sua risposta. Se la risposta di Gemelli include una miniatura di un'immagine dal web, mostrerà la fonte e fornirà un link diretto ad essa.

Gemini è stato progettato fin dall'inizio in modo multimodale, cioè è stato addestrato su più tipi di dati, e ora può lavorare senza problemi con diversi tipi di contenuti. Come si può vedere nell'immagine qui sopra, il bot può includere immagini nelle sue risposte. Gemini è in grado di comprendere testo, audio, frammenti di video, note scritte a mano, grafici, diagrammi, di identificare oggetti nelle foto e di generare immagini utilizzando Imagen 3, il più avanzato modello text-to-image di Google.
Il chatbot ha anche ampie capacità multilingue, essendo disponibile in 46 lingue diverse.
Modelli attuali, punti di forza e capacità
Gemini offre diversi modelli ottimizzati per casi d'uso specifici. Ecco una breve panoramica delle varianti disponibili:
| Modello | Ingresso | Uscita | Descrizione |
Gemini 2.0 Flash | Audio, immagini, video e testo | Testo, immagini (a breve) e audio (a breve) | Funzionalità di nuova generazione, velocità e generazione multimodale per un'ampia varietà di attività |
Gemini 2.0 Flash Thinking | Testo, immagini | Testo | Modello di ragionamento potenziato che eccelle in scienze e matematica |
Gemini 1.5 Flash | Audio, immagini, video e testo | Testo | Prestazioni veloci e versatili per un'ampia gamma di attività |
Gemini 1.5 Flash-8B | Audio, immagini, video e testo | Testo | Attività ad alto volume e a bassa intelligenza |
Gemini 1.5 Pro | Audio, immagini, video e testo | Testo | Compiti di ragionamento complessi che richiedono maggiore intelligenza |
Gemini 1.5 Flash è dotato di una finestra di contesto da 1 milione di token e Gemini 1.5 Pro di una finestra di contesto da 2 milioni di token, la più lunga di qualsiasi modello linguistico di grandi dimensioni.
Un token equivale a circa 4 caratteri per i modelli Gemini. 100 token corrispondono a circa 60-80 parole inglesi.
In pratica, 1 milione di token equivale a:
- 50.000 righe di codice (con lo standard di 80 caratteri per riga).
- Trascrizioni di oltre 200 episodi di podcast di lunghezza media.
- 8 romanzi in inglese di lunghezza media.
- Tutti i messaggi di testo inviati negli ultimi 5 anni.
Gemini 1.5 Flash and Flash-8B | |
| Limite dei token in ingresso | 1,048,576 |
| Limite del token di uscita | 8,192 |
| Numero massimo di immagini | 3,600 |
| Lunghezza massima del video | 1 ora |
| Lunghezza massima dell'audio | Circa 9,5 ore |
Gemini 1.5 Pro raggiunge un richiamo quasi perfetto su compiti di recupero di contesti lunghi in tutte le modalità, sbloccando la capacità di elaborare accuratamente documenti lunghi, migliaia di righe di codice, ore di audio, video e altro ancora.
Gemini 1.5 Pro | |
| Limite dei token in ingresso | 2,097,152 |
| Limite del token di uscita | 8,192 |
| Numero massimo di immagini | 7,200 |
| Lunghezza massima del video | 2 ore |
| Lunghezza massima dell'audio | Circa 19 ore |
Ogni immagine equivale a 258 token. Tipi di immagine supportati:
- PNG
- WEBP
- JPEG
- HEIC
- HEIF
Sebbene non vi siano limiti specifici al numero di pixel di un'immagine oltre alla finestra contestuale del modello, le immagini più grandi vengono ridimensionate a una risoluzione massima di 3072x3072 mantenendo il rapporto d'aspetto originale, mentre le immagini più piccole vengono ridimensionate a 768x768 pixel.
Capacità di visione:
- Didascalia e risposta alle domande sulle immagini.
- Trascrivere e ragionare su PDF, compresi documenti lunghi fino a 2 milioni di token context window.
- Descrivere, segmentare ed estrarre informazioni da video, compresi fotogrammi visivi e audio, fino a 90 minuti.

Gemini è in grado di riconoscere correttamente tutti i contenuti scritti a mano e di verificarne il ragionamento.
Le capacità audio di Gemini:
- Descrivere, riassumere o rispondere a domande sul contenuto audio.
- Fornire una trascrizione dell'audio.
- Fornire risposte o una trascrizione su un segmento specifico dell'audio.
Formati audio supportati:
- WAV
- MP3
- FLAC
- OGG Vorbis
- AIFF
- AAC
Ogni secondo di audio equivale a 25 token; ad esempio, un minuto di audio è rappresentato come 1.500 token.
Gemini 2.0 Flash | |
| Limite dei token in ingresso | 1,048,576 |
| Limite del token di uscita | 8,192 |
Gemini 2.0 Flash è il modello più potente e versatile della famiglia Gemini. È in grado di creare immagini e generare parlato in modo nativo e, per quanto riguarda le prestazioni, supera gli altri modelli in quasi tutti i principali benchmark. Guardate voi stessi.
| Capacità | Benchmark | Descrizione | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 2.0 Flash |
| Generale | MMLU-Pro | Valuta la capacità dei modelli di apprendimento automatico di comprendere il linguaggio naturale | 67.3% | 75.8% | 76.4% |
| Codice | Natural2Code | Generazione di codice in Python, Java, C++, JS, Go | 79.8% | 85.4% | 92.9% |
| Codice | Bird-SQL (Dev) | Valuta la conversione di domande in linguaggio naturale in SQL eseguibile | 45.6% | 54.4% | 56.9% |
| Fattualità | FACTS Grounding | Capacità di fornire risposte corrette dal punto di vista fattuale a fronte di documenti e richieste di utenti diversi | 82.9% | 80.0% | 83.6% |
| Matematica | MATH | Problemi matematici impegnativi (tra cui algebra, geometria, pre-calcolo e altri) | 77.9% | 86.5% | 89.7% |
| Matematica | HiddenMath | Problemi di matematica a livello di competizione | 47.2% | 52.0% | 63.0% |
| Ragionamento | GPQA (diamond) | Un set di domande impegnative scritte da esperti di dominio in biologia, fisica e chimica | 51.0% | 59.1% | 62.1% |
| Immagine | MMMU | Problemi di comprensione e ragionamento multimodale di livello universitario multidisciplinare | 62.3% | 65.9% | 70.7% |
| Audio | CoVoST2 (21 lang) | Traduzione vocale automatica | 37.4 | 40.1 | 39.2 |
| Video | EgoSchema (test) | Analisi video | 66.8% | 71.2% | 71.5% |
Gemini 2.0 Flash Thinking combina velocità e prestazioni, dimostrando una notevole competenza nell'affrontare problemi complessi sia in matematica che in scienze. Una finestra contestuale da un milione di token consente un'analisi più approfondita di testi lunghi. Il miglioramento del ragionamento garantisce una maggiore coerenza tra i pensieri e le risposte.
Gemini 2.0 Flash Thinking | |
| Limite dei token in ingresso | 1,048,576 |
| Limite del token di uscita | 65,536 |
Si noti l'enorme finestra del token di output. Questo permette al modello non solo di elaborare richieste lunghe, ma anche di restituire risposte ampie, che possono essere utili, ad esempio, per generare grandi parti di codice.
Guardate come Gemini 2.0 Flash Thinking supera Gemini 1.5 Pro e Gemini 2.0 in matematica, scienze e ragionamento multimodale. Forse non è versatile come questi due modelli in generale, ma in questi ambiti specifici Gemini 2.0 Flash Thinking non ha rivali.

Matematica, scienze e ragionamento

Matematica e scienze
Critiche
Il chatbot Gemini ha avuto un inizio difficile quando è stato rilasciato nel 2023. Gli sviluppatori avevano troppa fretta di rilasciare un rivale di ChatGPT. Per questo motivo, la versione di lancio del chatbot era piena di bug. Gli utenti si sono lamentati di un gran numero di errori e imprecisioni nelle risposte del bot.
Uno dei più importanti è stata la controversia sulla generazione delle immagini. Gemini ha cercato di presentare la massima diversità razziale anche quando era inappropriata. Secondo il chatbot, questo è l'aspetto dei soldati tedeschi nel 1943:

E questo è l'aspetto dei senatori americani del 1800:

A causa del malcontento degli utenti, le azioni della società sono scese del 4,5%, il che corrisponde approssimativamente a una perdita di 90 milioni di dollari. Gli sviluppatori hanno anche dovuto bloccare temporaneamente la possibilità di generare immagini di persone.
In seguito alla controversia sulla generazione di immagini, alcuni utenti hanno iniziato ad accusare le risposte testuali di Gemini di essere di parte verso la sinistra. In un esempio, Gemini ha affermato che era “difficile dire in modo definitivo” se Elon Musk o il dittatore nazista Adolf Hitler avessero un impatto negativo maggiore sulla società. Inoltre, altri utenti hanno notato che Gemini sembra favorire i politici di sinistra e questioni come l'azione positiva e i diritti all'aborto, mentre è riluttante a sostenere le figure di destra, il consumo di carne e i combustibili fossili.
Ma va detto che tutte queste difficoltà sono ormai per lo più superate. Ora Gemini non ha problemi ed è uno dei chatbot di maggior successo e popolarità al mondo.