Gemini: En oversigt over dens innovative funktioner og modeller

Gemini er en familie af chatbots baseret på kunstig intelligens udviklet af Google. Lige nu ligger Gemini på tredjepladsen blandt alle chatbots med hensyn til markedsandel, kun overgået af ChatGPT og Microsoft Copilot. Samtidig vokser Gemini fortsat hurtigere end sine konkurrenter og bliver stadig mere populær: Den ligger på 4. pladsen med hensyn til tilstrømning af nye brugere, og kun Claude vokser hurtigere blandt de kendte chatbots. I denne artikel vil vi se på Geminis historie, nuværende modeller, deres funktioner og begrænsninger.

En kort historie om Google Gemini

Google har været en pioner inden for store sprogmodellers arkitektur og trækker på sin solide forskning for at udvikle sine egne modeller for kunstig intelligens.

2017: Google-forskere præsenterer transformer-arkitekturen, som ligger til grund for mange af nutidens store sprogmodeller.
2020: Virksomheden introducerer Meena, en neuralt netværksbaseret chatbot med 2,6 milliarder parametre, som Google hævdede var bedre end alle andre eksisterende chatbots på det tidspunkt.
2021: Meena omdøbes til LaMDA (forkortelse for Language Model for Dialogue Applications), da dens data- og computerkraft øges.
2022: En ny sprogmodel kaldet PaLM (Pathways Language Model) udgives med mere avancerede funktioner sammenlignet med LaMDA.
2023: En chatbot kaldet Google Bard frigives i løbet af årets første kvartal, støttet af en let og optimeret version af LaMDA. I andet kvartal introducerer de så PaLM 2 med forbedret kodning, flersprogede funktioner og forbedrede ræsonnementsevner, som Bard derefter tager i brug. Endelig annoncerede Google i sidste kvartal Gemini 1.0.
2024: Google omdøber Bard til Gemini og opgraderer sine multimodale KI-modeller til version 1.5. Gemini 2.0-modellerne introduceres i december.

I april 2024 sagde Google DeepMinds CEO Demis Hassabis, at virksomheden over tid vil bruge mere end 100 milliarder dollars på at udvikle kunstig intelligens-teknologi.

Demis Hassabis

Geminis særlige kendetegn

Enhver chatbot har begrænset viden om nylige begivenheder, fordi dens træningsdata kun omfatter en begrænset tidsperiode. En skæringsdato i forbindelse med chatbots henviser til det tidspunkt, hvor modellen er blevet trænet på data og kan give information. Hvis en chatbot f.eks. har en skæringsdato i oktober 2023, betyder det, at al den viden og de data, den har adgang til, kun er aktuelle indtil denne dato. Eventuelle begivenheder, udviklinger eller ændringer, der er sket efter denne dato, vil ikke blive afspejlet i chatbottens svar. Denne begrænsning er vigtig for brugerne at forstå, da den påvirker nøjagtigheden og relevansen af de oplysninger, der gives, især inden for hurtigt skiftende områder som teknologi, politik eller aktuelle begivenheder. Gemini kan dog omgå denne begrænsning ved at få adgang til og behandle oplysninger fra onlinesøgninger via Google Search, hvilket giver mere opdaterede svar.

Derfor kan det være nødvendigt for brugerne at verificere oplysninger fra nyere kilder, hvis de søger de seneste opdateringer eller indsigter. Nogle gange viser Gemini dig kilder og relateret indhold i og under sit svar. Disse omfatter webkilder med lignende oplysninger og links, så du kan grave dybere. Gemini er designet til at generere originalt indhold, men hvis den citerer direkte fra en webside, vil du se et citationstegn med den citerede kilde og et link til den pågældende side. Kilder og relateret indhold kan omfatte hjemmesider, som Gemini har citeret, eller som relaterer til dele af dens svar. Hvis Geminis svar indeholder et miniaturebillede af et billede fra nettet, vil det vise kilden og give et link direkte til det.

Gemini blev designet multimodalt fra starten, hvilket betyder, at den blev trænet på flere datatyper, og nu kan den problemfrit arbejde med forskellige typer indhold. Som du kan se på billedet ovenfor, kan boten inkludere billeder i sine svar. Gemini kan forstå tekst, lyd, videofragmenter, håndskrevne noter, grafer, diagrammer, kan identificere objekter på fotos og kan derudover generere billeder ved hjælp af Imagen 3, Googles mest avancerede tekst-til-billede-model.

Chatbotten har også en bred flersproget kapacitet, da den er tilgængelig på 46 forskellige sprog.

Nuværende modeller, deres styrker og muligheder

Gemini tilbyder forskellige modeller, der er optimeret til specifikke brugssituationer. Her er en kort oversigt over de varianter, der er tilgængelige:

Model	Input	Output	Beskrivelse
Gemini 2.0 Flash	Lyd, billeder, videoer og tekst	Tekst, billeder (kommer snart) og lyd (kommer snart)	Næste generation af funktioner, hastighed og multimodal generering til en lang række opgaver
Gemini 2.0 Flash Thinking	Tekst, billeder	Tekst	Forbedret ræsonneringsmodel, der udmærker sig inden for videnskab og matematik
Gemini 1.5 Flash	Lyd, billeder, videoer og tekst	Tekst	Hurtig og alsidig ydeevne på tværs af en lang række opgaver
Gemini 1.5 Flash-8B	Lyd, billeder, videoer og tekst	Tekst	Opgaver med høj volumen og lav intelligens
Gemini 1.5 Pro	Lyd, billeder, videoer og tekst	Tekst	Komplekse ræsonneringsopgaver, der kræver mere intelligens

Gemini 1.5 Flash leveres med et kontekstvindue med 1 million tokens, og Gemini 1.5 Pro leveres med et kontekstvindue med 2 millioner tokens, hvilket er det længste af alle store sprogmodeller.

Et token svarer til ca. 4 tegn for Gemini-modeller. 100 tokens er ca. 60-80 engelske ord.

I praksis ville 1 million tokens se sådan ud:

50.000 kodelinjer (med standard 80 tegn pr. linje).
Udskrifter af over 200 podcast-episoder af gennemsnitlig længde.
8 engelske romaner af gennemsnitslængde.
Alle de sms'er, du har sendt i de sidste 5 år.

Gemini 1.5 Flash and Flash-8B
Grænse for input-token	1,048,576
Grænse for output-token	8,192
Maksimalt antal billeder	3,600
Maksimal videolængde	1 time
Maksimal lydlængde	Cirka 9,5 timer

Gemini 1.5 Pro opnår næsten perfekt genkaldelse af opgaver med lang kontekst på tværs af modaliteter, hvilket frigør evnen til præcist at behandle lange dokumenter, tusindvis af kodelinjer, timevis af lyd, video og meget mere.

Gemini 1.5 Pro
Grænse for input-token	2,097,152
Grænse for output-token	8,192
Maksimalt antal billeder	7,200
Maksimal videolængde	2 timer
Maksimal lydlængde	Cirka 19 timer

Hvert billede svarer til 258 tokens. Understøttede billedtyper:

PNG
WEBP
JPEG
HEIC
HEIF

Der er ingen specifikke grænser for antallet af pixels i et billede ud over modellens kontekstvindue, men større billeder skaleres ned til en maksimal opløsning på 3072x3072, samtidig med at deres oprindelige billedformat bevares, mens mindre billeder skaleres op til 768x768 pixels.

Synsfunktioner:

Tekstning og besvarelse af spørgsmål om billeder.
Transkribere og ræsonnere over PDF'er, herunder lange dokumenter med op til 2 millioner token-kontekstvinduer.
Beskrive, segmentere og udtrække information fra videoer, herunder både visuelle rammer og lyd, op til 90 minutter lange.

Gemini er i stand til at genkende alt det håndskrevne indhold korrekt og verificere begrundelsen.

Geminis lydfunktioner:

Beskrive, opsummere eller besvare spørgsmål om lydindhold.
Give en transskription af lyden.
Give svar eller en transskription om et specifikt segment af lyden.

Understøttede lydformater:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

Hvert sekund lyd svarer til 25 tokens; for eksempel er et minuts lyd repræsenteret som 1.500 tokens.

Gemini 2.0 Flash
Grænse for input-token	1,048,576
Grænse for output-token	8,192

Gemini 2.0 Flash er den mest kraftfulde og alsidige model i Gemini-familien. Den kan skabe billeder og generere tale, og når det gælder ydeevne, overgår den andre modeller i næsten alle vigtige benchmarks. Se selv efter.

Kapacitet	Benchmark	Beskrivelse	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
Generelt	MMLU-Pro	Evaluerer, hvor godt maskinlæringsmodeller forstår naturligt sprog	67.3%	75.8%	76.4%
Kode	Natural2Code	Generering af kode på tværs af Python, Java, C++, JS, Go	79.8%	85.4%	92.9%
Kode	Bird-SQL (Dev)	Evaluerer konvertering af naturlige sprogspørgsmål til eksekverbar SQL	45.6%	54.4%	56.9%
Fakticitet	FACTS Grounding	Evne til at give faktuelt korrekte svar på baggrund af dokumenter og forskellige brugeranmodninger	82.9%	80.0%	83.6%
Matematik	MATH	Udfordrende matematikopgaver (inkl. algebra, geometri, pre-calculus og andre)	77.9%	86.5%	89.7%
Matematik	HiddenMath	Matematikopgaver på konkurrenceniveau	47.2%	52.0%	63.0%
Ræsonnement	GPQA (diamond)	Udfordrende datasæt med spørgsmål skrevet af domæneeksperter inden for biologi, fysik og kemi	51.0%	59.1%	62.1%
Billede	MMMU	Multidisciplinære multimodale forståelses- og ræsonnementsproblemer på universitetsniveau	62.3%	65.9%	70.7%
Lyd	CoVoST2 (21 lang)	Automatisk oversættelse af tale	37.4	40.1	39.2
Video	EgoSchema (test)	Videoanalyse	66.8%	71.2%	71.5%

Gemini 2.0 Flash Thinking kombinerer hastighed og ydeevne og demonstrerer bemærkelsesværdig ekspertise i at tackle komplekse problemer inden for både matematik og naturvidenskab. Et kontekstvindue med en million token muliggør en dybere analyse af lang tekst. Forbedret tænkning giver mere konsistens mellem tanker og svar.

Gemini 2.0 Flash Thinking
Grænse for input-token	1,048,576
Grænse for output-token	65,536

Læg mærke til det enorme output-token-vindue. Det gør det muligt for modellen ikke kun at behandle lange anmodninger, men også at give omfattende svar tilbage, hvilket f.eks. kan være nyttigt til at generere store stykker kode.

Se, hvordan Gemini 2.0 Flash Thinking overgår Gemini 1.5 Pro og Gemini 2.0 inden for matematik, videnskab og multimodal ræsonnering. Den er måske ikke så alsidig som de to modeller generelt, men på disse specifikke områder er Gemini 2.0 Flash Thinking uovertruffen.

Matematik, videnskab og ræsonnement

Matematik og naturvidenskab

Kritik af Gemini

Gemini-chatbotten fik en hård start, da den blev udgivet tilbage i 2023. Udviklerne havde for travlt med at udgive en konkurrent til ChatGPT. Og derfor var den første version af chatbotten fyldt med fejl. Brugerne klagede over et stort antal faktuelle fejl og unøjagtigheder i bottens svar.

En af de mest profilerede var kontroversen om billedgenerering. Gemini forsøgte at præsentere maksimal racemæssig mangfoldighed, selv hvor det var upassende. Ifølge chatbotten var det sådan, tyske soldater så ud i 1943:

Tyske soldater i 1943 genereret af Gemini

Og sådan så amerikanske senatorer ud i 1800-tallet:

Amerikanske senatorer fra 1800-tallet genereret af Gemini

På grund af brugernes utilfredshed faldt virksomhedens aktier med 4,5 %, hvilket nogenlunde svarer til et tab på 90 millioner dollars. Udviklerne måtte også midlertidigt blokere for muligheden for at generere billeder af mennesker.

Efter kontroversen omkring billedgenereringen begyndte nogle brugere at anklage Geminis tekstsvar for at være venstreorienterede. I et eksempel skrev Gemini, at det var »svært at sige med sikkerhed«, om Elon Musk eller den nazistiske diktator Adolf Hitler havde haft en større negativ indvirkning på samfundet. Derudover bemærkede andre brugere, at Gemini så ud til at favorisere venstreorienterede politikere og emner som positiv særbehandling og abortrettigheder, mens han var tilbageholdende med at støtte højreorienterede personer, kødforbrug og fossile brændstoffer.

Men det skal siges, at alle disse vanskeligheder for det meste ligger bag os nu. Nu har Gemini ingen problemer og er en af de mest succesfulde og populære chatbots i verden.