Gemini: En oversigt over dens innovative funktioner og modeller
Gemini er en familie af chatbots baseret på kunstig intelligens udviklet af Google. Lige nu ligger Gemini på tredjepladsen blandt alle chatbots med hensyn til markedsandel, kun overgået af ChatGPT og Microsoft Copilot. Samtidig vokser Gemini fortsat hurtigere end sine konkurrenter og bliver stadig mere populær: Den ligger på 4. pladsen med hensyn til tilstrømning af nye brugere, og kun Claude vokser hurtigere blandt de kendte chatbots. I denne artikel vil vi se på Geminis historie, nuværende modeller, deres funktioner og begrænsninger.
En kort historie om Google Gemini
Google har været en pioner inden for store sprogmodellers arkitektur og trækker på sin solide forskning for at udvikle sine egne modeller for kunstig intelligens.
- 2017: Google-forskere præsenterer transformer-arkitekturen, som ligger til grund for mange af nutidens store sprogmodeller.
- 2020: Virksomheden introducerer Meena, en neuralt netværksbaseret chatbot med 2,6 milliarder parametre, som Google hævdede var bedre end alle andre eksisterende chatbots på det tidspunkt.
- 2021: Meena omdøbes til LaMDA (forkortelse for Language Model for Dialogue Applications), da dens data- og computerkraft øges.
- 2022: En ny sprogmodel kaldet PaLM (Pathways Language Model) udgives med mere avancerede funktioner sammenlignet med LaMDA.
- 2023: En chatbot kaldet Google Bard frigives i løbet af årets første kvartal, støttet af en let og optimeret version af LaMDA. I andet kvartal introducerer de så PaLM 2 med forbedret kodning, flersprogede funktioner og forbedrede ræsonnementsevner, som Bard derefter tager i brug. Endelig annoncerede Google i sidste kvartal Gemini 1.0.
- 2024: Google omdøber Bard til Gemini og opgraderer sine multimodale KI-modeller til version 1.5. Gemini 2.0-modellerne introduceres i december.
I april 2024 sagde Google DeepMinds CEO Demis Hassabis, at virksomheden over tid vil bruge mere end 100 milliarder dollars på at udvikle kunstig intelligens-teknologi.

Demis Hassabis
Geminis særlige kendetegn
Enhver chatbot har begrænset viden om nylige begivenheder, fordi dens træningsdata kun omfatter en begrænset tidsperiode. En skæringsdato i forbindelse med chatbots henviser til det tidspunkt, hvor modellen er blevet trænet på data og kan give information. Hvis en chatbot f.eks. har en skæringsdato i oktober 2023, betyder det, at al den viden og de data, den har adgang til, kun er aktuelle indtil denne dato. Eventuelle begivenheder, udviklinger eller ændringer, der er sket efter denne dato, vil ikke blive afspejlet i chatbottens svar. Denne begrænsning er vigtig for brugerne at forstå, da den påvirker nøjagtigheden og relevansen af de oplysninger, der gives, især inden for hurtigt skiftende områder som teknologi, politik eller aktuelle begivenheder. Gemini kan dog omgå denne begrænsning ved at få adgang til og behandle oplysninger fra onlinesøgninger via Google Search, hvilket giver mere opdaterede svar.
Derfor kan det være nødvendigt for brugerne at verificere oplysninger fra nyere kilder, hvis de søger de seneste opdateringer eller indsigter. Nogle gange viser Gemini dig kilder og relateret indhold i og under sit svar. Disse omfatter webkilder med lignende oplysninger og links, så du kan grave dybere. Gemini er designet til at generere originalt indhold, men hvis den citerer direkte fra en webside, vil du se et citationstegn med den citerede kilde og et link til den pågældende side. Kilder og relateret indhold kan omfatte hjemmesider, som Gemini har citeret, eller som relaterer til dele af dens svar. Hvis Geminis svar indeholder et miniaturebillede af et billede fra nettet, vil det vise kilden og give et link direkte til det.

Gemini blev designet multimodalt fra starten, hvilket betyder, at den blev trænet på flere datatyper, og nu kan den problemfrit arbejde med forskellige typer indhold. Som du kan se på billedet ovenfor, kan boten inkludere billeder i sine svar. Gemini kan forstå tekst, lyd, videofragmenter, håndskrevne noter, grafer, diagrammer, kan identificere objekter på fotos og kan derudover generere billeder ved hjælp af Imagen 3, Googles mest avancerede tekst-til-billede-model.
Chatbotten har også en bred flersproget kapacitet, da den er tilgængelig på 46 forskellige sprog.
Nuværende modeller, deres styrker og muligheder
Gemini tilbyder forskellige modeller, der er optimeret til specifikke brugssituationer. Her er en kort oversigt over de varianter, der er tilgængelige:
Model | Input | Output | Beskrivelse |
Gemini 2.0 Flash | Lyd, billeder, videoer og tekst | Tekst, billeder (kommer snart) og lyd (kommer snart) | Næste generation af funktioner, hastighed og multimodal generering til en lang række opgaver |
Gemini 2.0 Flash Thinking | Tekst, billeder | Tekst | Forbedret ræsonneringsmodel, der udmærker sig inden for videnskab og matematik |
Gemini 1.5 Flash | Lyd, billeder, videoer og tekst | Tekst | Hurtig og alsidig ydeevne på tværs af en lang række opgaver |
Gemini 1.5 Flash-8B | Lyd, billeder, videoer og tekst | Tekst | Opgaver med høj volumen og lav intelligens |
Gemini 1.5 Pro | Lyd, billeder, videoer og tekst | Tekst | Komplekse ræsonneringsopgaver, der kræver mere intelligens |
Gemini 1.5 Flash leveres med et kontekstvindue med 1 million tokens, og Gemini 1.5 Pro leveres med et kontekstvindue med 2 millioner tokens, hvilket er det længste af alle store sprogmodeller.
Et token svarer til ca. 4 tegn for Gemini-modeller. 100 tokens er ca. 60-80 engelske ord.
I praksis ville 1 million tokens se sådan ud:
- 50.000 kodelinjer (med standard 80 tegn pr. linje).
- Udskrifter af over 200 podcast-episoder af gennemsnitlig længde.
- 8 engelske romaner af gennemsnitslængde.
- Alle de sms'er, du har sendt i de sidste 5 år.
Gemini 1.5 Flash and Flash-8B | |
| Grænse for input-token | 1,048,576 |
| Grænse for output-token | 8,192 |
| Maksimalt antal billeder | 3,600 |
| Maksimal videolængde | 1 time |
| Maksimal lydlængde | Cirka 9,5 timer |
Gemini 1.5 Pro opnår næsten perfekt genkaldelse af opgaver med lang kontekst på tværs af modaliteter, hvilket frigør evnen til præcist at behandle lange dokumenter, tusindvis af kodelinjer, timevis af lyd, video og meget mere.
Gemini 1.5 Pro | |
| Grænse for input-token | 2,097,152 |
| Grænse for output-token | 8,192 |
| Maksimalt antal billeder | 7,200 |
| Maksimal videolængde | 2 timer |
| Maksimal lydlængde | Cirka 19 timer |
Hvert billede svarer til 258 tokens. Understøttede billedtyper:
- PNG
- WEBP
- JPEG
- HEIC
- HEIF
Der er ingen specifikke grænser for antallet af pixels i et billede ud over modellens kontekstvindue, men større billeder skaleres ned til en maksimal opløsning på 3072x3072, samtidig med at deres oprindelige billedformat bevares, mens mindre billeder skaleres op til 768x768 pixels.
Synsfunktioner:
- Tekstning og besvarelse af spørgsmål om billeder.
- Transkribere og ræsonnere over PDF'er, herunder lange dokumenter med op til 2 millioner token-kontekstvinduer.
- Beskrive, segmentere og udtrække information fra videoer, herunder både visuelle rammer og lyd, op til 90 minutter lange.

Gemini er i stand til at genkende alt det håndskrevne indhold korrekt og verificere begrundelsen.
Geminis lydfunktioner:
- Beskrive, opsummere eller besvare spørgsmål om lydindhold.
- Give en transskription af lyden.
- Give svar eller en transskription om et specifikt segment af lyden.
Understøttede lydformater:
- WAV
- MP3
- FLAC
- OGG Vorbis
- AIFF
- AAC
Hvert sekund lyd svarer til 25 tokens; for eksempel er et minuts lyd repræsenteret som 1.500 tokens.
Gemini 2.0 Flash | |
| Grænse for input-token | 1,048,576 |
| Grænse for output-token | 8,192 |
Gemini 2.0 Flash er den mest kraftfulde og alsidige model i Gemini-familien. Den kan skabe billeder og generere tale, og når det gælder ydeevne, overgår den andre modeller i næsten alle vigtige benchmarks. Se selv efter.
| Kapacitet | Benchmark | Beskrivelse | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 2.0 Flash |
| Generelt | MMLU-Pro | Evaluerer, hvor godt maskinlæringsmodeller forstår naturligt sprog | 67.3% | 75.8% | 76.4% |
| Kode | Natural2Code | Generering af kode på tværs af Python, Java, C++, JS, Go | 79.8% | 85.4% | 92.9% |
| Kode | Bird-SQL (Dev) | Evaluerer konvertering af naturlige sprogspørgsmål til eksekverbar SQL | 45.6% | 54.4% | 56.9% |
| Fakticitet | FACTS Grounding | Evne til at give faktuelt korrekte svar på baggrund af dokumenter og forskellige brugeranmodninger | 82.9% | 80.0% | 83.6% |
| Matematik | MATH | Udfordrende matematikopgaver (inkl. algebra, geometri, pre-calculus og andre) | 77.9% | 86.5% | 89.7% |
| Matematik | HiddenMath | Matematikopgaver på konkurrenceniveau | 47.2% | 52.0% | 63.0% |
| Ræsonnement | GPQA (diamond) | Udfordrende datasæt med spørgsmål skrevet af domæneeksperter inden for biologi, fysik og kemi | 51.0% | 59.1% | 62.1% |
| Billede | MMMU | Multidisciplinære multimodale forståelses- og ræsonnementsproblemer på universitetsniveau | 62.3% | 65.9% | 70.7% |
| Lyd | CoVoST2 (21 lang) | Automatisk oversættelse af tale | 37.4 | 40.1 | 39.2 |
| Video | EgoSchema (test) | Videoanalyse | 66.8% | 71.2% | 71.5% |
Gemini 2.0 Flash Thinking kombinerer hastighed og ydeevne og demonstrerer bemærkelsesværdig ekspertise i at tackle komplekse problemer inden for både matematik og naturvidenskab. Et kontekstvindue med en million token muliggør en dybere analyse af lang tekst. Forbedret tænkning giver mere konsistens mellem tanker og svar.
Gemini 2.0 Flash Thinking | |
| Grænse for input-token | 1,048,576 |
| Grænse for output-token | 65,536 |
Læg mærke til det enorme output-token-vindue. Det gør det muligt for modellen ikke kun at behandle lange anmodninger, men også at give omfattende svar tilbage, hvilket f.eks. kan være nyttigt til at generere store stykker kode.
Se, hvordan Gemini 2.0 Flash Thinking overgår Gemini 1.5 Pro og Gemini 2.0 inden for matematik, videnskab og multimodal ræsonnering. Den er måske ikke så alsidig som de to modeller generelt, men på disse specifikke områder er Gemini 2.0 Flash Thinking uovertruffen.

Matematik, videnskab og ræsonnement

Matematik og naturvidenskab
Kritik af Gemini
Gemini-chatbotten fik en hård start, da den blev udgivet tilbage i 2023. Udviklerne havde for travlt med at udgive en konkurrent til ChatGPT. Og derfor var den første version af chatbotten fyldt med fejl. Brugerne klagede over et stort antal faktuelle fejl og unøjagtigheder i bottens svar.
En af de mest profilerede var kontroversen om billedgenerering. Gemini forsøgte at præsentere maksimal racemæssig mangfoldighed, selv hvor det var upassende. Ifølge chatbotten var det sådan, tyske soldater så ud i 1943:

Og sådan så amerikanske senatorer ud i 1800-tallet:

På grund af brugernes utilfredshed faldt virksomhedens aktier med 4,5 %, hvilket nogenlunde svarer til et tab på 90 millioner dollars. Udviklerne måtte også midlertidigt blokere for muligheden for at generere billeder af mennesker.
Efter kontroversen omkring billedgenereringen begyndte nogle brugere at anklage Geminis tekstsvar for at være venstreorienterede. I et eksempel skrev Gemini, at det var »svært at sige med sikkerhed«, om Elon Musk eller den nazistiske diktator Adolf Hitler havde haft en større negativ indvirkning på samfundet. Derudover bemærkede andre brugere, at Gemini så ud til at favorisere venstreorienterede politikere og emner som positiv særbehandling og abortrettigheder, mens han var tilbageholdende med at støtte højreorienterede personer, kødforbrug og fossile brændstoffer.
Men det skal siges, at alle disse vanskeligheder for det meste ligger bag os nu. Nu har Gemini ingen problemer og er en af de mest succesfulde og populære chatbots i verden.