Gemini: En oversikt over innovative funksjoner og modeller
Gemini er en familie av chatboter basert på kunstig intelligens utviklet av Google. Akkurat nå ligger Gemini på tredjeplass blant alle chatboter når det gjelder markedsandeler, bare slått av ChatGPT og Microsoft Copilot. Samtidig fortsetter Gemini å vokse raskere enn konkurrentene og blir stadig mer populær: Den ligger på 4. plass når det gjelder tilstrømning av nye brukere, og det er bare Claude som vokser raskere blant kjente chatboter. I denne artikkelen vil vi se på Geminis historie, nåværende modeller, deres funksjoner og begrensninger.
En kort historikk om Google Gemini
Google har vært en pioner innen store språkmodeller og bruker sin robuste forskning til å utvikle sine egne modeller for kunstig intelligens.
- 2017: Google-forskere presenterer transformatorarkitekturen, som ligger til grunn for mange av dagens store språkmodeller.
- 2020: Selskapet lanserer Meena, en nevralt nettverksbasert chatbot med 2,6 milliarder parametere, som Google hevdet var bedre enn alle andre eksisterende chatboter på det tidspunktet.
- 2021: Meena omdøpes til LaMDA (forkortelse for Language Model for Dialogue Applications) etter hvert som data- og datakraften øker.
- 2022: En ny språkmodell kalt PaLM (Pathways Language Model) lanseres, med mer avanserte funksjoner sammenlignet med LaMDA.
- 2023: En chatbot kalt Google Bard lanseres i løpet av årets første kvartal, støttet av en lett og optimalisert versjon av LaMDA. I andre kvartal introduserer de PaLM 2, med forbedret koding, flerspråklige funksjoner og forbedrede resonneringsevner, som Bard deretter tar i bruk. Til slutt, i siste kvartal, kunngjorde Google Gemini 1.0.
- 2024: Google omdøper Bard til Gemini og oppgraderer sine multimodale KI-modeller til versjon 1.5. Gemini 2.0-modellene introduseres i desember.
I april 2024 sa Google DeepMind-sjef Demis Hassabis at selskapet over tid vil bruke mer enn 100 milliarder dollar på å utvikle kunstig intelligens-teknologi.

Demis Hassabis
Geminis særegne egenskaper
Alle chatboter har begrenset kunnskap om nylige hendelser fordi opplæringsdataene bare omfatter en begrenset tidsperiode. En cutoff-dato i forbindelse med chatboter refererer til det tidspunktet modellen har blitt trent på data og kan gi informasjon. Hvis en chatbot for eksempel har en cutoff-dato i oktober 2023, betyr det at all kunnskap og data den har tilgang til, kun er aktuell frem til denne datoen. Eventuelle hendelser, utviklinger eller endringer som har skjedd etter denne datoen, vil ikke gjenspeiles i chatbotens svar. Denne begrensningen er viktig for brukerne å forstå, ettersom den påvirker nøyaktigheten og relevansen av informasjonen som gis, spesielt på områder som er i rask endring, som teknologi, politikk eller aktuelle hendelser. Gemini kan imidlertid omgå denne begrensningen ved å få tilgang til og behandle informasjon fra nettsøk via Google Søk, noe som gir mer oppdaterte svar.
Derfor kan det hende at brukerne må verifisere informasjon fra nyere kilder hvis de er ute etter de siste oppdateringene eller innsiktene. Noen ganger viser Gemini deg kilder og relatert innhold i og under svaret. Disse inkluderer nettkilder med lignende informasjon og lenker som du kan grave dypere i. Gemini er designet for å generere originalt innhold, men hvis den siterer direkte fra en nettside, vil du se et sitatmerke med den siterte kilden og en lenke til den siden. Kilder og relatert innhold kan inkludere nettsteder som Gemini har sitert eller som er relatert til deler av svaret. Hvis Geminis svar inneholder et miniatyrbilde av et bilde fra nettet, vises kilden og en lenke direkte til det.

Gemini ble designet multimodalt fra starten av, noe som betyr at den ble trent opp på flere datatyper, og nå kan den sømløst arbeide med ulike typer innhold. Som du kan se på bildet over, kan boten inkludere bilder i svarene sine. Gemini kan forstå tekst, lyd, videofragmenter, håndskrevne notater, grafer, diagrammer, kan identifisere objekter på bilder og kan i tillegg generere bilder ved hjelp av Imagen 3, Googles mest avanserte tekst-til-bilde-modell.
Chatboten har også flerspråklige funksjoner, ettersom den er tilgjengelig på 46 forskjellige språk.
Aktuelle modeller, deres styrker og muligheter
Gemini tilbyr ulike modeller som er optimalisert for spesifikke bruksområder. Her er en kort oversikt over de variantene som er tilgjengelige:
| Modell | Inndata | Utdata | Beskrivelse |
Gemini 2.0 Flash | Lyd, bilder, videoer og tekst | Text, images (coming soon), and audio (coming soon) | Neste generasjons funksjoner, hastighet og multimodal generering for en rekke ulike oppgaver |
Gemini 2.0 Flash Thinking | Tekst, bilder | Tekst | Forbedret resonneringsmodell som utmerker seg i naturfag og matematikk |
Gemini 1.5 Flash | Lyd, bilder, videoer og tekst | Tekst | Rask og allsidig ytelse på tvers av en rekke ulike oppgaver |
Gemini 1.5 Flash-8B | Lyd, bilder, videoer og tekst | Tekst | Oppgaver med høyt volum og lav intelligens |
Gemini 1.5 Pro | Lyd, bilder, videoer og tekst | Tekst | Komplekse resonneringsoppgaver som krever mer intelligens |
Gemini 1.5 Flash leveres med et kontekstvindu med 1 million tokens, og Gemini 1.5 Pro leveres med et kontekstvindu med 2 millioner tokens, noe som er det lengste av alle store språkmodeller.
En token tilsvarer ca. 4 tegn for Gemini-modeller. 100 tokens tilsvarer ca. 60-80 engelske ord.
I praksis vil 1 million tokens se ut som:
- 50 000 kodelinjer (med standard 80 tegn per linje).
- Transkripsjoner av over 200 podkastepisoder av gjennomsnittlig lengde.
- 8 engelske romaner av gjennomsnittslengde.
- Alle tekstmeldingene du har sendt de siste fem årene.
Gemini 1.5 Flash and Flash-8B | |
| Grensen for inndatatoken | 1,048,576 |
| Grense for utgangstoken | 8,192 |
| Maksimalt antall bilder | 3,600 |
| Maksimal videolengde | 1 time |
| Maksimal lydlengde | Omtrent 9,5 timer |
Gemini 1.5 Pro oppnår nesten perfekt gjenkalling ved gjenfinning av lange kontekster på tvers av modaliteter, noe som gjør det mulig å behandle lange dokumenter, tusenvis av kodelinjer, timevis med lyd, video og mye mer på en nøyaktig måte.
Gemini 1.5 Pro | |
| Grensen for inndatatoken | 2,097,152 |
| Grense for utgangstoken | 8,192 |
| Maksimalt antall bilder | 7,200 |
| Maksimal videolengde | 2 timer |
| Maksimal lydlengde | Omtrent 19 timer |
Hvert bilde tilsvarer 258 tokens. Bildetyper som støttes:
- PNG
- WEBP
- JPEG
- HEIC
- HEIF
Selv om det ikke finnes noen spesifikke grenser for antall piksler i et bilde, bortsett fra modellens kontekstvindu, skaleres større bilder ned til en maksimal oppløsning på 3072x3072 samtidig som det opprinnelige sideforholdet beholdes, mens mindre bilder skaleres opp til 768x768 piksler.
Synsfunksjoner:
- Teksting og svar på spørsmål om bilder.
- Transkribere og resonnere over PDF-filer, inkludert lange dokumenter med opptil 2 millioner token-kontekstvinduer.
- Beskrive, segmentere og trekke ut informasjon fra videoer, inkludert både visuelle bilder og lyd, med en lengde på opptil 90 minutter.

Gemini er i stand til å gjenkjenne alt det håndskrevne innholdet og verifisere resonnementet.
Geminis lydfunksjoner:
- Beskrive, oppsummere eller svare på spørsmål om lydinnhold.
- Gi en transkripsjon av lyden.
- Gi svar eller en transkripsjon om et bestemt segment av lyden.
Støttede lydformater:
- WAV
- MP3
- FLAC
- OGG Vorbis
- AIFF
- AAC
Hvert sekund med lyd tilsvarer 25 tokens, slik at for eksempel ett minutt med lyd tilsvarer 1500 tokens.
Gemini 2.0 Flash | |
| Grensen for inndatatoken | 1,048,576 |
| Grense for utgangstoken | 8,192 |
Gemini 2.0 Flash er den kraftigste og mest allsidige modellen i Gemini-familien. Den kan både lage bilder og generere tale, og når det gjelder ytelse, overgår den andre modeller i nesten alle viktige benchmarks. Se selv hvordan den fungerer.
| Kapasitet | Referansepunkt | Beskrivelse | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 2.0 Flash |
| Generelt | MMLU-Pro | Evaluerer hvor godt maskinlæringsmodeller forstår naturlig språk | 67.3% | 75.8% | 76.4% |
| Kode | Natural2Code | Kodegenerering på tvers av Python, Java, C++, JS, Go | 79.8% | 85.4% | 92.9% |
| Kode | Bird-SQL (Dev) | Evaluerer konvertering av naturlige språkspørsmål til kjørbar SQL | 45.6% | 54.4% | 56.9% |
| Faktisitet | FACTS Grounding | Evne til å gi saklige og korrekte svar på dokumenter og ulike brukerforespørsler | 82.9% | 80.0% | 83.6% |
| Matematikk | MATH | Utfordrende matteoppgaver (inkludert algebra, geometri, prekalkulus og andre) | 77.9% | 86.5% | 89.7% |
| Matematikk | HiddenMath | Matematikkoppgaver på konkurransenivå | 47.2% | 52.0% | 63.0% |
| Begrunnelse | GPQA (diamond) | Utfordrende datasett med spørsmål skrevet av domeneeksperter innen biologi, fysikk og kjemi | 51.0% | 59.1% | 62.1% |
| Bilde | MMMU | Multimodal forståelse og resonnering på tvers av fagområder på høyskolenivå | 62.3% | 65.9% | 70.7% |
| Lyd | CoVoST2 (21 lang) | Automatisk taleoversettelse | 37.4 | 40.1 | 39.2 |
| Video | EgoSchema (test) | Videoanalyse | 66.8% | 71.2% | 71.5% |
Gemini 2.0 Flash Thinking kombinerer hastighet og ytelse, og demonstrerer bemerkelsesverdig ekspertise når det gjelder å takle komplekse problemer innen både matematikk og naturvitenskap. Et kontekstvindu med én million tokener muliggjør dypere analyse av lang tekst. Forbedret tenkning gir mer konsistens mellom tanker og svar.
Gemini 2.0 Flash Thinking | |
| Grensen for inndatatoken | 1,048,576 |
| Grense for utgangstoken | 65,536 |
Legg merke til det enorme vinduet for utdatatoken. Det gjør at modellen ikke bare kan behandle lange forespørsler, men også gi omfattende svar, noe som for eksempel kan være nyttig for å generere store biter av kode.
Se hvordan Gemini 2.0 Flash Thinking overgår Gemini 1.5 Pro og Gemini 2.0 i matematikk, vitenskap og multimodal resonnering. Den er kanskje ikke like allsidig som disse to modellene generelt, men på disse spesifikke områdene er Gemini 2.0 Flash Thinking uovertruffen.

Matematikk, naturvitenskap og resonnering

Matematikk og naturfag
Kritikk
Gemini chatbot hadde en tøff start da den ble utgitt tilbake i 2023. Utviklerne hadde det for travelt med å gi ut en rival til ChatGPT. Og det er grunnen til at utgivelsesversjonen av chatboten var full av feil. Brukere klaget over et stort antall faktafeil og unøyaktigheter i botens svar.
En av de mest profilerte var kontroversen om bildegenerering. Gemini forsøkte å presentere maksimalt rasemangfold selv der det var upassende. Ifølge chatboten var det slik tyske soldater så ut i 1943:

Slik så senatorer ut på 1800-tallet:

På grunn av brukernes misnøye falt selskapets aksjer med 4,5 %, noe som omtrent tilsvarer et tap på 90 millioner dollar. Utviklerne måtte også midlertidig blokkere muligheten til å generere bilder av mennesker.
Etter kontroversen rundt bildegenerering begynte noen brukere å anklage Geminis tekstsvar for å være venstrevridde. I et eksempel skrev Gemini at det var «vanskelig å si definitivt» om Elon Musk eller nazi-diktatoren Adolf Hitler hadde hatt størst negativ innvirkning på samfunnet. I tillegg bemerket andre brukere at Gemini så ut til å favorisere venstreorienterte politikere og saker som positiv særbehandling og abortrettigheter, mens de var tilbakeholdne med å støtte høyreorienterte personer, kjøttforbruk og fossilt brensel.
Men det må sies at alle disse vanskelighetene for det meste ligger bak nå. Nå har Gemini ingen problemer og er en av de mest vellykkede og populære chatbotene i verden.