Gemini: Katsaus sen innovatiivisiin ominaisuuksiin ja malleihin

Gemini on Googlen kehittämä tekoälyyn perustuva chatbottien perhe. Tällä hetkellä Gemini on markkinaosuudeltaan kaikkien chatbottien joukossa kolmannella sijalla, vain ChatGPT:n ja Microsoft Copilotin jälkeen. Samaan aikaan Gemini kasvaa edelleen kilpailijoitaan nopeammin ja kasvattaa jatkuvasti suosiotaan: se on uusien käyttäjien määrässä neljäntenä, ja vain Claude kasvaa tunnetuista chatboteista nopeammin. Tässä artikkelissa tarkastelemme Geminin historiaa, nykyisiä malleja, niiden ominaisuuksia ja rajoituksia.

Google Geminin lyhyt historia

Google on ollut suurten kielimallien arkkitehtuurin edelläkävijä, ja se hyödyntää vankkaa tutkimustietoaan kehittäessään omia tekoälymallejaan.

2017: Googlen tutkijat esittelevät Transformer-arkkitehtuurin, joka on monien nykyisten suurten kielimallien perustana.
2020: Yhtiö esittelee Meenan, 2,6 miljardia parametria sisältävän neuroverkkopohjaisen chatbotin, jonka Google väittää olevan parempi kuin kaikki muut tuolloin olemassa olevat chatbotit.
2021: Meena nimetään uudelleen LaMDA:ksi (lyhenne sanoista Language Model for Dialogue Applications), kun sen data- ja laskentateho kasvaa.
2022: Julkaistaan uusi kielimalli nimeltä PaLM (Pathways Language Model), jolla on LaMDA:han verrattuna kehittyneemmät ominaisuudet.
2023: Vuoden ensimmäisellä neljänneksellä julkaistaan Google Bard -niminen chatbot, jonka tukena on kevyt ja optimoitu versio LaMDA:sta. Toisella vuosineljänneksellä esitellään PaLM 2, jossa on parannettu koodaus, monikielisyysominaisuudet ja parannetut päättelytaidot, jotka Bard sitten omaksuu. Viimeisellä vuosineljänneksellä Google julkisti Gemini 1.0:n.
2024: Google nimeää Bardin uudelleen Geminiksi ja päivittää multimodaaliset tekoälymallit versioon 1.5. Gemini 2.0 -mallit esitellään joulukuussa.

Huhtikuussa 2024 Googlen DeepMindin toimitusjohtaja Demis Hassabis sanoo, että ajan mittaan yhtiö käyttää yli 100 miljardia dollaria tekoälyteknologian kehittämiseen.

Demis Hassabis

Geminin erityispiirteet

Jokaisella chatbotilla on rajallinen tietämys viimeaikaisista tapahtumista, koska sen koulutustiedot kattavat vain rajallisen ajanjakson. Chatbottien yhteydessä rajapäivällä tarkoitetaan ajankohtaa, johon asti malli on koulutettu datalla ja joka voi antaa tietoa. Jos esimerkiksi chatbotin rajapäivämäärä on lokakuu 2023, se tarkoittaa, että kaikki tieto ja tiedot, joihin se pääsee käsiksi, ovat ajankohtaisia vain kyseiseen päivämäärään asti. Kaikki kyseisen päivämäärän jälkeen tapahtuneet tapahtumat, kehitys tai muutokset eivät näy chatbotin vastauksissa. Tämä rajoitus on tärkeää ymmärtää käyttäjien kannalta, sillä se vaikuttaa tarjottujen tietojen tarkkuuteen ja relevanssiin erityisesti nopeasti muuttuvilla aloilla, kuten teknologian, politiikan tai ajankohtaisten tapahtumien alalla. Gemini voi kuitenkin kiertää tämän rajoituksen käyttämällä ja käsittelemällä Google-hakujen kautta tehdyistä verkkohauista saatuja tietoja ja antamalla ajantasaisempia vastauksia.

Näin ollen käyttäjien on ehkä tarkistettava tiedot tuoreemmista lähteistä, jos he etsivät viimeisimpiä päivityksiä tai näkemyksiä. Joskus Gemini näyttää lähteitä ja niihin liittyvää sisältöä vastauksensa sisällä ja sen alapuolella. Näihin kuuluu verkkolähteitä, joissa on samankaltaisia tietoja ja linkkejä, joiden avulla voit syventyä asiaan. Gemini on suunniteltu tuottamaan omaperäistä sisältöä, mutta jos se lainaa suoraan joltakin verkkosivulta, näet lainausmerkin, jossa on mainittu lähde ja linkki kyseiselle sivulle. Lähteet ja niihin liittyvä sisältö voivat sisältää verkkosivustoja, joita Gemini lainasi tai jotka liittyvät sen vastauksen osiin. Jos Geminin vastauksessa on pienoiskuva jostakin verkosta löytyvästä kuvasta, siinä näkyy lähde ja linkki suoraan kuvaan.

Gemini suunniteltiin alusta alkaen multimodaaliseksi, mikä tarkoittaa, että se koulutettiin useilla eri tietotyypeillä, ja nyt se voi työskennellä saumattomasti erityyppisen sisällön kanssa. Kuten yllä olevasta kuvasta näkyy, botti voi sisällyttää vastauksiinsa kuvia. Gemini ymmärtää tekstiä, ääntä, videopätkiä, käsinkirjoitettuja muistiinpanoja, kaavioita ja diagrammeja, tunnistaa kohteita valokuvista ja osaa lisäksi luoda kuvia Googlen kehittyneimmän tekstistä kuvaksi -mallin Imagen 3:n avulla.

Chatbotilla on myös laajat monikielisyysominaisuudet, sillä se on saatavilla 46 eri kielellä.

Nykyiset mallit, niiden vahvuudet ja valmiudet

Gemini tarjoaa erilaisia malleja, jotka on optimoitu tiettyihin käyttötarkoituksiin. Seuraavassa on lyhyt katsaus saatavilla olevista vaihtoehdoista:

Malli	Tulo	Lähtö	Kuvaus
Gemini 2.0 Flash	Äänet, kuvat, videot ja teksti	Teksti, kuvat (tulossa pian) ja ääni (tulossa pian).	Seuraavan sukupolven ominaisuudet, nopeus ja multimodaalinen tuottaminen monenlaisia tehtäviä varten.
Gemini 2.0 Flash Thinking	Teksti, kuvat	Teksti	Parannettu päättelymalli, joka erottuu edukseen luonnontieteissä ja matematiikassa.
Gemini 1.5 Flash	Äänet, kuvat, videot ja teksti	Teksti	Nopea ja monipuolinen suorituskyky monenlaisissa tehtävissä
Gemini 1.5 Flash-8B	Äänet, kuvat, videot ja teksti	Teksti	Suuren volyymin ja alhaisemman älykkyysosamäärän tehtävät
Gemini 1.5 Pro	Äänet, kuvat, videot ja teksti	Teksti	Monimutkaiset päättelytehtävät, jotka vaativat enemmän älykkyyttä

Gemini 1.5 Flash -versiossa on 1 miljoonan tokenin konteksti-ikkuna, ja Gemini 1.5 Pro -versiossa on 2 miljoonan tokenin konteksti-ikkuna, joka on kaikkien suurten kielimallien pisin.

Yksi token vastaa noin 4 merkkiä Gemini-malleissa. 100 tokenia vastaa noin 60-80 englanninkielistä sanaa.

Käytännössä 1 miljoona tokenia näyttäisi seuraavalta:

50 000 riviä koodia (80 merkkiä per rivi).
Yli 200 keskipitkästä podcast-jaksosta koostuvat transkriptiot.
8 keskipitkä englanninkielistä romaania.
Kaikki tekstiviestit, jotka olet lähettänyt viimeisten viiden vuoden aikana.

Gemini 1.5 Flash and Flash-8B
Syötön token-raja	1,048,576
Tokenin ulostulorajoitus	8,192
Kuvien enimmäismäärä	3,600
Videon enimmäispituus	1 tunti
Äänen enimmäispituus	Noin 9,5 tuntia

Gemini 1.5 Pro saavuttaa lähes täydellisen muistin pitkien kontekstien hakutehtävissä eri modaliteettien välillä, mikä mahdollistaa pitkien asiakirjojen, tuhansien koodirivien, tuntikausien ääni- ja videomateriaalin ja paljon muuta täsmällistä käsittelyä.

Gemini 1.5 Pro
Syötön token-raja	2,097,152
Tokenin ulostulorajoitus	8,192
Kuvien enimmäismäärä	7,200
Videon enimmäispituus	2 tuntia
Äänen enimmäispituus	Noin 19 tuntia

Jokainen kuva vastaa 258 tokenia. Tuetut kuvatyypit:

PNG
WEBP
JPEG
HEIC
HEIF

Vaikka kuvan pikselimäärälle ei ole erityisiä rajoituksia mallin konteksti-ikkunan lisäksi, suuremmat kuvat skaalataan enintään 3072x3072 pikselin tarkkuuteen säilyttäen niiden alkuperäinen kuvasuhde, kun taas pienemmät kuvat skaalataan 768x768 pikseliin.

Näkövalmiudet:

Kuvatekstit ja vastaaminen kuviin liittyviin kysymyksiin.
Transkriboi ja päättele PDF-tiedostoja, myös pitkiä asiakirjoja, jopa 2 miljoonan tokenin konteksti-ikkunaan asti.
Kuvaa, segmentoi ja poimi tietoa jopa 90 minuutin pituisista videoista, mukaan lukien sekä visuaaliset kehykset että ääni.

Gemini pystyy tunnistamaan kaiken käsinkirjoitetun sisällön oikein ja tarkistamaan perustelut.

Geminin ääniominaisuudet:

Kuvaile, tee yhteenveto tai vastaa kysymyksiin äänisisällöstä.
Toimittaa äänitallenteesta transkriptio.
Antaa vastauksia tai transkriptiota tietystä äänen osasta.

Tuetut ääniformaatit:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

Jokainen sekunti ääntä vastaa 25 tokenia; esimerkiksi yksi minuutti ääntä vastaa 1 500 tokenia.

Gemini 2.0 Flash
Syötön token-raja	1,048,576
Tokenin ulostulorajoitus	8,192

Gemini 2.0 Flash on Gemini-tuoteperheen tehokkain ja monipuolisin malli. Se voi luoda kuvia ja tuottaa puhetta, ja suorituskyvyn osalta se ylittää muut mallit lähes kaikissa tärkeimmissä vertailuarvoissa. Katso itse.

Toimintakyky	Vertailukohta	Kuvaus	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
Yleistä	MMLU-Pro	Arvioidaan, kuinka hyvin koneoppimisen mallit ymmärtävät luonnollista kieltä	67.3%	75.8%	76.4%
Koodi	Natural2Code	Koodin luominen Pythonissa, Javassa, C++:ssa, JS:ssä ja Go:ssa	79.8%	85.4%	92.9%
Koodi	Bird-SQL (Dev)	Arvioidaan luonnollisen kielen kysymysten muuntamista suoritettavaksi SQL:ksi	45.6%	54.4%	56.9%
Tosiasiat	FACTS Grounding	Kyky antaa asiasisällöltään oikeita vastauksia annettuihin asiakirjoihin ja erilaisiin käyttäjäpyyntöihin	82.9%	80.0%	83.6%
Matematiikka	MATH	Haastavat matemaattiset ongelmat (mm. algebra, geometria, esilaskenta ja muut).	77.9%	86.5%	89.7%
Matematiikka	HiddenMath	Kilpailutason matemaattiset ongelmat	47.2%	52.0%	63.0%
Pohdinta	GPQA (diamond)	Biologian, fysiikan ja kemian asiantuntijoiden kirjoittamia haastavia kysymyksiä sisältävä tietokokonaisuus	51.0%	59.1%	62.1%
Kuva	MMMU	Monialaiset korkeakoulutasoiset multimodaaliset ymmärtämis- ja päättelyongelmat	62.3%	65.9%	70.7%
Audio	CoVoST2 (21 lang)	Automaattinen puheenkääntäminen	37.4	40.1	39.2
Video	EgoSchema (test)	Videoanalyysi	66.8%	71.2%	71.5%

Gemini 2.0 Flash Thinking yhdistää nopeuden ja suorituskyvyn ja osoittaa huomattavaa asiantuntemusta monimutkaisten matemaattisten ja luonnontieteellisten ongelmien ratkaisemisessa. Miljoonan merkin konteksti-ikkuna mahdollistaa pitkän tekstin syvällisemmän analysoinnin. Parannettu ajattelu tarjoaa enemmän johdonmukaisuutta ajatusten ja vastausten välillä.

Gemini 2.0 Flash Thinking
Syötön token-raja	1,048,576
Tokenin ulostulorajoitus	65,536

Huomaa jättimäinen tulostuksen Token-ikkuna. Sen ansiosta malli voi paitsi käsitellä pitkiä pyyntöjä myös antaa laajoja vastauksia, mikä voi olla kätevää esimerkiksi suurten koodikokonaisuuksien luomisessa.

Katso, miten Gemini 2.0 Flash Thinking päihittää Gemini 1.5 Pro ja Gemini 2.0 matematiikassa, luonnontieteissä ja multimodaalisessa päättelyssä. Se ei ehkä ole yhtä monipuolinen kuin nämä kaksi mallia yleensä, mutta näillä erityisalueilla Gemini 2.0 Flash Thinking on vertaansa vailla.

Matematiikka, luonnontieteet ja päättely

Matematiikka ja luonnontieteet

Kritiikki

Gemini-keskustelurobotilla oli vaikea alku, kun se julkaistiin vuonna 2023. Kehittäjillä oli liian kiire julkaista kilpailija ChatGPT:lle. Ja siksi chatbotin julkaisuversio oli täynnä virheitä. Käyttäjät valittivat suuresta määrästä asiavirheitä ja epätarkkuuksia botin vastauksissa.

Yksi näkyvimmistä oli kuvien tuottamiseen liittyvä kiista. Gemini yritti esittää maksimaalisen rotujen moninaisuuden silloinkin, kun se oli sopimatonta. Chatbotin mukaan saksalaiset sotilaat näyttivät tältä vuonna 1943:

Saksalaiset sotilaat vuonna 1943 Geminin tuottama

Ja tältä näyttivät 1800-luvun Yhdysvaltain senaattorit:

Yhdysvaltain senaattorit 1800-luvulta Geminin tuottamina

Käyttäjien tyytymättömyyden vuoksi yhtiön osakkeet laskivat 4,5 prosenttia, mikä vastaa noin 90 miljoonan dollarin tappiota. Kehittäjät joutuivat myös tilapäisesti estämään mahdollisuuden luoda kuvia ihmisistä.

Kuvien tuottamiseen liittyvän kiistan jälkeen jotkut käyttäjät alkoivat syyttää Geminin tekstivastauksia vasemmistolaisuuteen suuntautuneiksi. Eräässä tällaisessa esimerkissä Gemini totesi, että oli ”vaikea sanoa lopullisesti”, oliko Elon Muskilla vai natsidiktaattori Adolf Hitlerillä suurempi kielteinen vaikutus yhteiskuntaan. Lisäksi muut käyttäjät huomauttivat, että Gemini näytti suosivan vasemmistolaisia poliitikkoja ja asioita, kuten positiivista toimintaa ja aborttioikeuksia, mutta ei halunnut tukea oikeistolaisia henkilöitä, lihankulutusta ja fossiilisia polttoaineita.

Mutta on sanottava, että kaikki nämä vaikeudet ovat nyt enimmäkseen takanapäin. Nyt Geminillä ei ole mitään ongelmia, ja se on yksi maailman menestyneimmistä ja suosituimmista chat-roboteista.