Gemini: een overzicht van de innovatieve functies en modellen
Gemini is een familie chatbots op basis van kunstmatige intelligentie, ontwikkeld door Google. Op dit moment staat Gemini op de derde plaats van alle chatbots wat betreft marktaandeel, alleen achter ChatGPT en Microsoft Copilot. Tegelijkertijd blijft Gemini sneller groeien dan zijn concurrenten en wint het gestaag aan populariteit: het staat op de 4e plaats wat betreft instroom van nieuwe gebruikers, waarbij alleen Claude sneller groeit onder de bekende chatbots. In dit artikel kijken we naar de geschiedenis van Gemini, de huidige modellen, hun functies en beperkingen.
Een korte geschiedenis van Google Gemini
Google is een pionier op het gebied van de architectuur van grote taalmodellen en baseert zich op zijn robuuste onderzoek om zijn eigen modellen voor kunstmatige intelligentie te ontwikkelen.
- 2017: Google-onderzoekers presenteren de transformer-architectuur, die ten grondslag ligt aan veel van de huidige grote taalmodellen.
- 2020: Het bedrijf introduceert Meena, een op neurale netwerken gebaseerde chatbot met 2,6 miljard parameters, waarvan Google beweert dat deze superieur is aan alle andere bestaande chatbots op dat moment.
- 2021: Meena wordt omgedoopt tot LaMDA (kort voor Language Model for Dialogue Applications) naarmate de gegevens en rekenkracht toenemen.
- 2022: Een nieuw taalmodel genaamd PaLM (Pathways Language Model) wordt uitgebracht, met meer geavanceerde mogelijkheden in vergelijking met LaMDA.
- 2023: Een chatbot genaamd Google Bard wordt in het eerste kwartaal van het jaar uitgebracht, ondersteund door een lichtgewicht en geoptimaliseerde versie van LaMDA. Dan, in het tweede kwartaal, introduceren ze PaLM 2, met verbeterde codering, meertalige mogelijkheden en verbeterde redeneervaardigheden, die Bard vervolgens overneemt. Tot slot kondigde Google in het laatste kwartaal Gemini 1.0 aan.
- 2024: Google hernoemt Bard als Gemini en upgradet zijn multimodale KI-modellen naar versie 1.5. Gemini 2.0 modellen worden in december geïntroduceerd.
In april 2024 zegt Demis Hassabis, CEO van Google DeepMind, dat het bedrijf in de loop der tijd meer dan 100 miljard dollar zal uitgeven aan de ontwikkeling van technologie voor kunstmatige intelligentie.

Demis Hassabis
Gemini's onderscheidende kenmerken
Elke chatbot heeft beperkte kennis van recente gebeurtenissen omdat zijn trainingsgegevens slechts een eindige tijdsperiode omvatten. Een einddatum in de context van chatbots verwijst naar het punt in de tijd tot wanneer het model is getraind op gegevens en informatie kan verschaffen. Als een chatbot bijvoorbeeld een cutoff-datum van oktober 2023 heeft, betekent dit dat alle kennis en gegevens waartoe hij toegang heeft alleen tot die datum actueel zijn. Gebeurtenissen, ontwikkelingen of veranderingen die zich na die datum hebben voorgedaan, worden niet weerspiegeld in de antwoorden van de chatbot. Deze beperking is belangrijk voor gebruikers om te begrijpen, omdat het de nauwkeurigheid en relevantie van de verstrekte informatie beïnvloedt, vooral op snel veranderende gebieden zoals technologie, politiek of actuele gebeurtenissen. Gemini kan deze beperking echter omzeilen door informatie van online zoekopdrachten via Google Search op te vragen en te verwerken, waardoor actuelere antwoorden worden gegeven.
Bijgevolg moeten gebruikers mogelijk informatie uit recentere bronnen verifiëren als ze op zoek zijn naar de laatste updates of inzichten. Soms toont Gemini je bronnen en gerelateerde inhoud binnen en onder het antwoord. Dit zijn webbronnen met vergelijkbare informatie en links waarmee je dieper kunt graven. Gemini is ontworpen om originele inhoud te genereren, maar als het rechtstreeks citeert uit een webpagina, zie je een aanhalingsteken met de geciteerde bron en een link naar die pagina. Bronnen en gerelateerde inhoud kunnen websites bevatten die Gemini heeft geciteerd of die betrekking hebben op delen van het antwoord. Als het antwoord van Gemini een miniatuur van een afbeelding van het web bevat, dan wordt de bron getoond en wordt er een link naar de afbeelding gegeven.

Gemini is vanaf het begin multimodaal ontworpen, wat betekent dat het is getraind op meerdere gegevenstypen, en nu kan het naadloos werken met verschillende soorten inhoud. Zoals je in de bovenstaande afbeelding kunt zien, kan de bot afbeeldingen opnemen in zijn antwoorden. Gemini begrijpt tekst, audio, videofragmenten, handgeschreven notities, grafieken, diagrammen, kan objecten op foto's identificeren en kan bovendien afbeeldingen genereren met behulp van Imagen 3, Google's meest geavanceerde tekst-naar-afbeeldingsmodel.
De chatbot heeft ook uitgebreide meertalige mogelijkheden, want hij is beschikbaar in 46 verschillende talen.
Huidige modellen, hun sterke punten en mogelijkheden
Gemini biedt verschillende modellen die geoptimaliseerd zijn voor specifieke gebruikssituaties. Hier volgt een kort overzicht van de beschikbare varianten:
Model | Invoer | Uitgang | Beschrijving |
Gemini 2.0 Flash | Audio, afbeeldingen, video's en tekst | Tekst, afbeeldingen (binnenkort) en audio (binnenkort) | Volgende generatie functies, snelheid en multimodaal genereren voor een grote verscheidenheid aan taken |
Gemini 2.0 Flash Thinking | Tekst, afbeeldingen | Tekst | Verbeterd redeneermodel dat uitblinkt in wetenschap en wiskunde |
Gemini 1.5 Flash | Audio, afbeeldingen, video's en tekst | Tekst | Snelle en veelzijdige prestaties voor uiteenlopende taken |
Gemini 1.5 Flash-8B | Audio, afbeeldingen, video's en tekst | Tekst | Taken met hoog volume en lagere intelligentie |
Gemini 1.5 Pro | Audio, afbeeldingen, video's en tekst | Tekst | Complexe redeneertaken die meer intelligentie vereisen |
Gemini 1.5 Flash heeft een contextvenster van 1 miljoen tokens en Gemini 1.5 Pro heeft een contextvenster van 2 miljoen tokens, het langste van alle grote taalmodellen.
Eén token komt overeen met ongeveer 4 tekens voor Gemini-modellen. 100 tokens zijn ongeveer 60-80 Engelse woorden.
In de praktijk zou 1 miljoen tokens er als volgt uitzien:
- 50.000 regels code (met de standaard 80 tekens per regel).
- Transcripties van meer dan 200 podcastafleveringen van gemiddelde lengte.
- 8 Engelstalige romans van gemiddelde lengte.
- Alle sms-berichten die je de afgelopen 5 jaar hebt verstuurd.
Gemini 1.5 Flash and Flash-8B | |
| Limiet invoertoken | 1,048,576 |
| Limiet uitvoertoken | 8,192 |
| Maximaal aantal afbeeldingen | 3,600 |
| Maximale videolengte | 1 uur |
| Maximale audiolengte | Ongeveer 9,5 uur |
Gemini 1.5 Pro haalt bijna perfecte resultaten bij het ophalen van lange contexten in verschillende modaliteiten en ontsluit de mogelijkheid om lange documenten, duizenden regels code, uren aan audio, video en nog veel meer nauwkeurig te verwerken.
Gemini 1.5 Pro | |
| Limiet invoertoken | 2,097,152 |
| Limiet uitvoertoken | 8,192 |
| Maximaal aantal afbeeldingen | 7,200 |
| Maximale videolengte | 2 uur |
| Maximale audiolengte | Ongeveer 19 uur |
Elke afbeelding komt overeen met 258 tokens. Ondersteunde afbeeldingssoorten:
- PNG
- WEBP
- JPEG
- HEIC
- HEIF
Hoewel er geen specifieke limieten zijn voor het aantal pixels in een afbeelding naast het contextvenster van het model, worden grotere afbeeldingen verkleind tot een maximale resolutie van 3072x3072 met behoud van hun originele beeldverhouding, terwijl kleinere afbeeldingen worden verkleind tot 768x768 pixels.
Vision-mogelijkheden:
- Bijschriften maken en vragen over afbeeldingen beantwoorden.
- Transcriberen en redeneren over PDF's, inclusief lange documenten tot 2 miljoen token contextvenster.
- Beschrijven, segmenteren en extraheren van informatie uit video's, inclusief visuele frames en audio, tot 90 minuten lang.

Gemini is in staat om alle handgeschreven inhoud correct te herkennen en de redenering te verifiëren.
Gemini's audiomogelijkheden:
- Beschrijven, samenvatten of vragen beantwoorden over audio-inhoud.
- Een transcriptie van de audio geven.
- Antwoorden of een transcriptie geven over een specifiek segment van de audio.
Ondersteunde audioformaten:
- WAV
- MP3
- FLAC
- OGG Vorbis
- AIFF
- AAC
Elke seconde audio is gelijk aan 25 tokens; een minuut audio wordt bijvoorbeeld weergegeven als 1.500 tokens.
Gemini 2.0 Flash | |
| Limiet invoertoken | 1,048,576 |
| Limiet uitvoertoken | 8,192 |
Gemini 2.0 Flash is het krachtigste en meest veelzijdige model van de Gemini-familie. Hij kan van nature afbeeldingen maken en spraak genereren, en als het op prestaties aankomt, overtreft hij andere modellen in bijna alle belangrijke benchmarks. Kijk zelf maar.
| Vermogen | Benchmark | Beschrijving | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 2.0 Flash |
| Algemeen | MMLU-Pro | Evalueert hoe goed modellen voor machinaal leren natuurlijke taal begrijpen | 67.3% | 75.8% | 76.4% |
| Code | Natural2Code | Code genereren voor Python, Java, C++, JS, Go | 79.8% | 85.4% | 92.9% |
| Code | Bird-SQL (Dev) | Evalueert het omzetten van vragen in natuurlijke taal naar uitvoerbare SQL | 45.6% | 54.4% | 56.9% |
| Feitelijkheid | FACTS Grounding | In staat om feitelijk juiste antwoorden te geven op gegeven documenten en diverse verzoeken van gebruikers | 82.9% | 80.0% | 83.6% |
| Wiskunde | MATH | Uitdagende wiskundeproblemen (inclusief algebra, meetkunde, pre-calculus en andere) | 77.9% | 86.5% | 89.7% |
| Wiskunde | HiddenMath | Wiskundeproblemen op wedstrijdniveau | 47.2% | 52.0% | 63.0% |
| Redenering | GPQA (diamond) | Uitdagende dataset met vragen geschreven door domeinexperts in biologie, natuurkunde en scheikunde | 51.0% | 59.1% | 62.1% |
| Afbeelding | MMMU | Multidisciplinaire multimodale begrips- en redeneerproblemen op universitair niveau | 62.3% | 65.9% | 70.7% |
| Audio | CoVoST2 (21 lang) | Automatische spraakvertaling | 37.4 | 40.1 | 39.2 |
| Video | EgoSchema (test) | Video-analyse | 66.8% | 71.2% | 71.5% |
Gemini 2.0 Flash Thinking combineert snelheid en prestaties en laat een opmerkelijke expertise zien in het aanpakken van complexe problemen in zowel wiskunde als wetenschap. Een contextvenster met één miljoen tokens maakt diepere analyse van lange tekst mogelijk. Verbeterd denken zorgt voor meer consistentie tussen gedachten en antwoorden.
Gemini 2.0 Flash Thinking | |
| Limiet invoertoken | 1,048,576 |
| Limiet uitvoertoken | 65,536 |
Let op het enorme venster voor de uitvoertoken. Hierdoor kan het model niet alleen lange verzoeken verwerken, maar ook uitgebreide antwoorden teruggeven, wat bijvoorbeeld handig kan zijn voor het genereren van grote stukken code.
Bekijk hoe Gemini 2.0 Flash Thinking Gemini 1.5 Pro en Gemini 2.0 overtreft in wiskunde, wetenschap en multimodaal redeneren. Het is misschien niet zo veelzijdig als deze twee modellen in het algemeen, maar in deze specifieke domeinen is Gemini 2.0 Flash Thinking ongeëvenaard.

Wiskunde, wetenschap en redeneren

Wiskunde en wetenschap
Kritiek
Gemini chatbot had een moeilijke start toen het werd uitgebracht in 2023. De ontwikkelaars hadden te veel haast om een rivaal van ChatGPT uit te brengen. En daarom zat de releaseversie van de chatbot vol bugs. Gebruikers klaagden over een groot aantal feitelijke fouten en onnauwkeurigheden in de antwoorden van de bot.
Een van de meest opvallende was de controverse over het genereren van afbeeldingen. Gemini probeerde maximale rassendiversiteit te presenteren, zelfs waar dat ongepast was. Volgens de chatbot zagen Duitse soldaten er zo uit in 1943:

En zo zagen Amerikaanse senatoren er in 1800 uit:

Door het ongenoegen van de gebruikers daalden de aandelen van het bedrijf met 4,5%, wat ruwweg overeenkomt met een verlies van 90 miljoen dollar. De ontwikkelaars moesten ook tijdelijk de mogelijkheid om afbeeldingen van mensen te genereren blokkeren.
Na de controverse over het genereren van afbeeldingen, begonnen sommige gebruikers Gemini's tekstreacties te beschuldigen van vooringenomenheid naar links toe. In één zo'n voorbeeld stelde Gemini dat het “moeilijk was om definitief te zeggen” of Elon Musk of de nazi-dictator Adolf Hitler een grotere negatieve impact op de samenleving had. Daarnaast merkten andere gebruikers op dat Gemini een voorkeur leek te hebben voor linkse politici en onderwerpen als positieve actie en abortusrechten, terwijl het terughoudend was om rechtse figuren, vleesconsumptie en fossiele brandstoffen te steunen.
Maar het moet gezegd worden dat al deze moeilijkheden nu grotendeels achter de rug zijn. Gemini heeft nu geen problemen meer en is een van de meest succesvolle en populaire chatbots ter wereld.