Gemini: En översikt över dess innovativa funktioner och modeller
Gemini är en familj av chatbottar baserade på artificiell intelligens som utvecklats av Google. Just nu ligger Gemini på tredje plats bland alla chatbottar när det gäller marknadsandel, efter ChatGPT och Microsoft Copilot. Samtidigt fortsätter Gemini att växa snabbare än sina konkurrenter och ökar stadigt i popularitet: den ligger på fjärde plats när det gäller tillströmning av nya användare, och bland välkända chatbottar är det bara Claude som växer snabbare. I den här artikeln kommer vi att titta på Geminis historia, nuvarande modeller, deras funktioner och begränsningar.
En kort historik över Google Gemini
Google har varit en pionjär inom arkitektur för stora språkmodeller och drar nytta av sin gedigna forskning för att utveckla sina egna modeller för artificiell intelligens.
- 2017: Google-forskare presenterar transformer-arkitekturen, som ligger till grund för många av dagens stora språkmodeller.
- 2020: Företaget lanserar Meena, en neuronnätsbaserad chatbot med 2,6 miljarder parametrar, som Google hävdar är överlägsen alla andra befintliga chatbotar vid den tidpunkten.
- 2021: Meena byter namn till LaMDA (förkortning för Language Model for Dialogue Applications) i takt med att data- och datorkraften ökar.
- 2022: En ny språkmodell som kallas PaLM (Pathways Language Model) släpps, med mer avancerade funktioner jämfört med LaMDA.
- 2023: En chatbot kallad Google Bard lanseras under årets första kvartal, med stöd av en lättviktig och optimerad version av LaMDA. Under det andra kvartalet introduceras PaLM 2, med förbättrad kodning, flerspråkiga funktioner och förbättrad resonemangsförmåga, som Bard sedan använder. Slutligen, under det sista kvartalet, tillkännagav Google Gemini 1.0.
- 2024: Google byter namn på Bard till Gemini och uppgraderar sina multimodala AI-modeller till version 1.5. Gemini 2.0-modellerna introduceras i december.
I april 2024 sa Demis Hassabis, vd för Google DeepMind, att företaget kommer att spendera mer än 100 miljarder dollar på att utveckla teknik för artificiell intelligens.

Demis Hassabis
Geminis utmärkande egenskaper
Varje chatbot har begränsad kunskap om aktuella händelser eftersom dess träningsdata endast omfattar en begränsad tidsperiod. Ett stoppdatum i samband med chatbottar avser den tidpunkt fram till vilken modellen har tränats på data och kan ge information. Om en chatbot till exempel har ett stoppdatum i oktober 2023 innebär det att all kunskap och data som den har tillgång till endast är aktuell fram till det datumet. Eventuella händelser, utvecklingar eller förändringar som har inträffat efter det datumet kommer inte att återspeglas i chatbotens svar. Denna begränsning är viktig för användarna att förstå, eftersom den påverkar riktigheten och relevansen av den information som tillhandahålls, särskilt inom snabbt föränderliga områden som teknik, politik eller aktuella händelser. Gemini kan dock kringgå denna begränsning genom att få tillgång till och bearbeta information från onlinesökningar via Google Search, vilket ger mer uppdaterade svar.
Följaktligen kan användare behöva verifiera information från nyare källor om de söker de senaste uppdateringarna eller insikterna. Ibland visar Gemini dig källor och relaterat innehåll inom och under dess svar. Dessa inkluderar webbkällor med liknande information och länkar för att du ska kunna gräva djupare. Gemini är utformat för att generera originalinnehåll, men om det direkt citerar en webbsida kommer du att se ett citattecken med den citerade källan och en länk till den sidan. Källor och relaterat innehåll kan inkludera webbplatser som Gemini citerat eller som relaterar till delar av dess svar. Om Geminis svar innehåller en miniatyrbild av en bild från webben, kommer den att visa källan och ge en länk direkt till den.

Gemini utformades multimodalt från början, vilket innebär att den tränades på flera datatyper, och nu kan den sömlöst arbeta med olika typer av innehåll. Som du kan se på bilden ovan kan boten inkludera bilder i sina svar. Gemini kan förstå text, ljud, videofragment, handskrivna anteckningar, grafer, diagram, kan identifiera objekt på foton och kan dessutom generera bilder med hjälp av Imagen 3, Googles mest avancerade text-till-bild-modell.
Chatboten har också breda flerspråkiga funktioner eftersom den finns tillgänglig på 46 olika språk.
Aktuella modeller, deras styrkor och möjligheter
Gemini erbjuder olika modeller som är optimerade för specifika användningsområden. Här är en kort översikt över de varianter som finns tillgängliga:
| Modell | Ingång | Utgång | Beskrivning |
Gemini 2.0 Flash | Ljud, bilder, videor och text | Text, bilder (kommer inom kort) och ljud (kommer inom kort) | Nästa generations funktioner, hastighet och multimodal generering för en mängd olika uppgifter |
Gemini 2.0 Flash Thinking | Text, bilder | Text | Enhanced reasoning model that excels in science and math |
Gemini 1.5 Flash | Ljud, bilder, videor och text | Text | Fast and versatile performance across a diverse variety of tasks |
Gemini 1.5 Flash-8B | Ljud, bilder, videor och text | Text | High volume and lower intelligence tasks |
Gemini 1.5 Pro | Ljud, bilder, videor och text | Text | Complex reasoning tasks requiring more intelligence |
Gemini 1.5 Flash har ett kontextfönster med 1 miljon token och Gemini 1.5 Pro har ett kontextfönster med 2 miljoner token, vilket är det längsta av alla stora språkmodeller.
En token motsvarar cirka 4 tecken för Gemini-modeller. 100 tokens är ungefär 60-80 engelska ord.
I praktiken skulle 1 miljon tokens se ut som:
- 50 000 rader kod (med standarden 80 tecken per rad).
- Transkriptioner av över 200 podcastavsnitt av genomsnittlig längd.
- 8 engelska romaner av genomsnittlig längd.
- Alla textmeddelanden du har skickat under de senaste 5 åren.
Gemini 1.5 Flash and Flash-8B | |
| Gräns för inmatningstoken | 1,048,576 |
| Gräns för utmatningstoken | 8,192 |
| Maximalt antal bilder | 3,600 |
| Maximal videolängd | 1 timme |
| Maximal ljudlängd | Cirka 9,5 timmar |
Gemini 1.5 Pro uppnår nästan perfekt återkallande på uppgifter för hämtning av långa kontexter över modaliteter, vilket frigör förmågan att exakt bearbeta långa dokument, tusentals rader kod, timmar med ljud, video och mer.
Gemini 1.5 Pro | |
| Gräns för inmatningstoken | 2,097,152 |
| Gräns för utmatningstoken | 8,192 |
| Maximalt antal bilder | 7,200 |
| Maximal videolängd | 2 timmar |
| Maximal ljudlängd | Cirka 19 timmar |
Varje bild motsvarar 258 tokens. Bildtyper som stöds:
- PNG
- WEBP
- JPEG
- HEIC
- HEIF
Det finns inga specifika gränser för antalet pixlar i en bild utöver modellens kontextfönster, men större bilder skalas ned till en maximal upplösning på 3072x3072 samtidigt som deras ursprungliga bildförhållande bevaras, medan mindre bilder skalas upp till 768x768 pixlar.
Synförmåga:
- Bildtexter och svar på frågor om bilder.
- Transkribera och resonera över PDF-filer, inklusive långa dokument med upp till 2 miljoner token-kontextfönster.
- Beskriva, segmentera och extrahera information från videor, inklusive både visuella ramar och ljud, upp till 90 minuter långa.

Gemini kan korrekt känna igen allt handskrivet innehåll och verifiera resonemanget.
Gemini's ljudfunktioner:
- Beskriva, sammanfatta eller svara på frågor om ljudinnehåll.
- Tillhandahålla en transkription av ljudet.
- Ge svar eller en transkription om ett specifikt segment av ljudet.
Ljudformat som stöds:
- WAV
- MP3
- FLAC
- OGG Vorbis
- AIFF
- AAC
Varje sekund av ljudet motsvarar 25 tokens; till exempel representeras en minut av ljudet av 1.500 tokens.
Gemini 2.0 Flash | |
| Gräns för inmatningstoken | 1,048,576 |
| Gräns för utmatningstoken | 8,192 |
Gemini 2.0 Flash är den mest kraftfulla och mångsidiga modellen i Gemini-familjen. Den kan skapa bilder och generera tal, och när det gäller prestanda överträffar den andra modeller i nästan alla viktiga benchmarks. Testa själv.
| Kapacitet | Riktmärke | Beskrivning | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 2.0 Flash |
| Allmänt | MMLU-Pro | Utvärderar hur väl maskininlärningsmodeller förstår naturligt språk | 67.3% | 75.8% | 76.4% |
| Kod | Natural2Code | Kodgenerering i Python, Java, C++, JS, Go | 79.8% | 85.4% | 92.9% |
| Kod | Bird-SQL (Dev) | Utvärderar omvandling av frågor på naturligt språk till körbar SQL | 45.6% | 54.4% | 56.9% |
| Fakticitet | FACTS Grounding | Förmåga att ge faktamässigt korrekta svar på dokument och olika användarförfrågningar | 82.9% | 80.0% | 83.6% |
| Matematik | MATH | Utmanande matematiska problem (inklusive algebra, geometri, prekalkylering och andra) | 77.9% | 86.5% | 89.7% |
| Matematik | HiddenMath | Matematiska problem på tävlingsnivå | 47.2% | 52.0% | 63.0% |
| Resonemang | GPQA (diamond) | Utmanande dataset med frågor skrivna av domänexperter inom biologi, fysik och kemi | 51.0% | 59.1% | 62.1% |
| Bild | MMMU | Multimodala förståelse- och resonemangsproblem inom flera discipliner på högskolenivå | 62.3% | 65.9% | 70.7% |
| Ljud | CoVoST2 (21 lang) | Automatisk översättning av tal | 37.4 | 40.1 | 39.2 |
| Video | EgoSchema (test) | Videoanalys | 66.8% | 71.2% | 71.5% |
Gemini 2.0 Flash Thinking kombinerar snabbhet och prestanda och visar på en anmärkningsvärd kompetens när det gäller att tackla komplexa problem inom både matematik och vetenskap. Ett kontextfönster med en miljon token möjliggör djupare analys av lång text. Förbättrat tänkande ger mer konsistens mellan tankar och svar.
Gemini 2.0 Flash Thinking | |
| Gräns för inmatningstoken | 1,048,576 |
| Gräns för utmatningstoken | 65,536 |
Lägg märke till det enorma fönstret för utdatatoken. Det gör det möjligt för modellen att inte bara bearbeta långa förfrågningar utan också att ge tillbaka omfattande svar, vilket kan vara praktiskt för att generera stora bitar av kod, till exempel.
Se hur Gemini 2.0 Flash Thinking överträffar Gemini 1.5 Pro och Gemini 2.0 i matematik, vetenskap och multimodalt resonemang. Det kanske inte är lika mångsidigt som de två modellerna i allmänhet, men i dessa specifika domäner är Gemini 2.0 Flash Thinking oöverträffad.

Matematik, naturvetenskap och resonemang

Matematik och naturvetenskap
Kritik mot Gemini
Gemini chatbot hade en tuff start när den släpptes tillbaka 2023. Utvecklarna hade för mycket bråttom att släppa en rival till ChatGPT. Och det är därför releaseversionen av chatbot var full av buggar. Användare klagade över ett stort antal faktafel och felaktigheter i botens svar.
En av de mest högprofilerade var kontroversen om bildgenerering. Gemini försökte presentera maximal rasmångfald även där det var olämpligt. Enligt chatboten var det så här tyska soldater såg ut 1943:

Och så här såg senatorer ut på 1800-talet:

På grund av användarnas missnöje föll bolagets aktier med 4,5%, vilket ungefär motsvarar en förlust på 90 miljoner dollar. Utvecklarna var också tvungna att tillfälligt blockera möjligheten att generera bilder av människor.
Efter kontroversen kring bildgenerering började vissa användare anklaga Geminis textsvar för att vara vinklade åt vänster. I ett sådant exempel skrev Gemini att det var ”svårt att säga definitivt” om Elon Musk eller den nazistiske diktatorn Adolf Hitler hade en större negativ inverkan på samhället. Dessutom noterade andra användare att Gemini verkade gynna vänsterpolitiker och frågor som positiv särbehandling och aborträtt, medan han var ovillig att stödja högerfigurer, köttkonsumtion och fossila bränslen.
Men det måste sägas att alla dessa svårigheter mestadels ligger bakom nu. Nu har Gemini inga problem och är en av de mest framgångsrika och populära chatbots i världen.