Takaisin pääsivulle

Gemini: Katsaus sen innovatiivisiin ominaisuuksiin ja malleihin

Gemini on Googlen kehittämä tekoälyyn perustuva chatbottien perhe. Tällä hetkellä Gemini on markkinaosuudeltaan kaikkien chatbottien joukossa kolmannella sijalla, vain ChatGPT:n ja Microsoft Copilotin jälkeen. Samaan aikaan Gemini kasvaa edelleen kilpailijoitaan nopeammin ja kasvattaa jatkuvasti suosiotaan: se on uusien käyttäjien määrässä neljäntenä, ja vain Claude kasvaa tunnetuista chatboteista nopeammin. Tässä artikkelissa tarkastelemme Geminin historiaa, nykyisiä malleja, niiden ominaisuuksia ja rajoituksia.

Google Geminin lyhyt historia

Google on ollut suurten kielimallien arkkitehtuurin edelläkävijä, ja se hyödyntää vankkaa tutkimustietoaan kehittäessään omia tekoälymallejaan.

  • 2017: Googlen tutkijat esittelevät Transformer-arkkitehtuurin, joka on monien nykyisten suurten kielimallien perustana.
  • 2020: Yhtiö esittelee Meenan, 2,6 miljardia parametria sisältävän neuroverkkopohjaisen chatbotin, jonka Google väittää olevan parempi kuin kaikki muut tuolloin olemassa olevat chatbotit.
  • 2021: Meena nimetään uudelleen LaMDA:ksi (lyhenne sanoista Language Model for Dialogue Applications), kun sen data- ja laskentateho kasvaa.
  • 2022: Julkaistaan uusi kielimalli nimeltä PaLM (Pathways Language Model), jolla on LaMDA:han verrattuna kehittyneemmät ominaisuudet.
  • 2023: Vuoden ensimmäisellä neljänneksellä julkaistaan Google Bard -niminen chatbot, jonka tukena on kevyt ja optimoitu versio LaMDA:sta. Toisella vuosineljänneksellä esitellään PaLM 2, jossa on parannettu koodaus, monikielisyysominaisuudet ja parannetut päättelytaidot, jotka Bard sitten omaksuu. Viimeisellä vuosineljänneksellä Google julkisti Gemini 1.0:n.
  • 2024: Google nimeää Bardin uudelleen Geminiksi ja päivittää multimodaaliset tekoälymallit versioon 1.5. Gemini 2.0 -mallit esitellään joulukuussa.

Huhtikuussa 2024 Googlen DeepMindin toimitusjohtaja Demis Hassabis sanoo, että ajan mittaan yhtiö käyttää yli 100 miljardia dollaria tekoälyteknologian kehittämiseen.

Demis Hassabis

Demis Hassabis

Geminin erityispiirteet

Jokaisella chatbotilla on rajallinen tietämys viimeaikaisista tapahtumista, koska sen koulutustiedot kattavat vain rajallisen ajanjakson. Chatbottien yhteydessä rajapäivällä tarkoitetaan ajankohtaa, johon asti malli on koulutettu datalla ja joka voi antaa tietoa. Jos esimerkiksi chatbotin rajapäivämäärä on lokakuu 2023, se tarkoittaa, että kaikki tieto ja tiedot, joihin se pääsee käsiksi, ovat ajankohtaisia vain kyseiseen päivämäärään asti. Kaikki kyseisen päivämäärän jälkeen tapahtuneet tapahtumat, kehitys tai muutokset eivät näy chatbotin vastauksissa. Tämä rajoitus on tärkeää ymmärtää käyttäjien kannalta, sillä se vaikuttaa tarjottujen tietojen tarkkuuteen ja relevanssiin erityisesti nopeasti muuttuvilla aloilla, kuten teknologian, politiikan tai ajankohtaisten tapahtumien alalla. Gemini voi kuitenkin kiertää tämän rajoituksen käyttämällä ja käsittelemällä Google-hakujen kautta tehdyistä verkkohauista saatuja tietoja ja antamalla ajantasaisempia vastauksia.
 

Näin ollen käyttäjien on ehkä tarkistettava tiedot tuoreemmista lähteistä, jos he etsivät viimeisimpiä päivityksiä tai näkemyksiä. Joskus Gemini näyttää lähteitä ja niihin liittyvää sisältöä vastauksensa sisällä ja sen alapuolella. Näihin kuuluu verkkolähteitä, joissa on samankaltaisia tietoja ja linkkejä, joiden avulla voit syventyä asiaan. Gemini on suunniteltu tuottamaan omaperäistä sisältöä, mutta jos se lainaa suoraan joltakin verkkosivulta, näet lainausmerkin, jossa on mainittu lähde ja linkki kyseiselle sivulle. Lähteet ja niihin liittyvä sisältö voivat sisältää verkkosivustoja, joita Gemini lainasi tai jotka liittyvät sen vastauksen osiin. Jos Geminin vastauksessa on pienoiskuva jostakin verkosta löytyvästä kuvasta, siinä näkyy lähde ja linkki suoraan kuvaan.

Gemini näyttää kuvia New Yorkista

Gemini suunniteltiin alusta alkaen multimodaaliseksi, mikä tarkoittaa, että se koulutettiin useilla eri tietotyypeillä, ja nyt se voi työskennellä saumattomasti erityyppisen sisällön kanssa. Kuten yllä olevasta kuvasta näkyy, botti voi sisällyttää vastauksiinsa kuvia. Gemini ymmärtää tekstiä, ääntä, videopätkiä, käsinkirjoitettuja muistiinpanoja, kaavioita ja diagrammeja, tunnistaa kohteita valokuvista ja osaa lisäksi luoda kuvia Googlen kehittyneimmän tekstistä kuvaksi -mallin Imagen 3:n avulla.

Chatbotilla on myös laajat monikielisyysominaisuudet, sillä se on saatavilla 46 eri kielellä.

Nykyiset mallit, niiden vahvuudet ja valmiudet

Gemini tarjoaa erilaisia malleja, jotka on optimoitu tiettyihin käyttötarkoituksiin. Seuraavassa on lyhyt katsaus saatavilla olevista vaihtoehdoista:

MalliTuloLähtöKuvaus

Gemini 2.0 Flash

Äänet, kuvat, videot ja tekstiTeksti, kuvat (tulossa pian) ja ääni (tulossa pian).Seuraavan sukupolven ominaisuudet, nopeus ja multimodaalinen tuottaminen monenlaisia tehtäviä varten.

Gemini 2.0 Flash Thinking

Teksti, kuvatTekstiParannettu päättelymalli, joka erottuu edukseen luonnontieteissä ja matematiikassa.

Gemini 1.5 Flash

Äänet, kuvat, videot ja tekstiTekstiNopea ja monipuolinen suorituskyky monenlaisissa tehtävissä

Gemini 1.5 Flash-8B

Äänet, kuvat, videot ja tekstiTekstiSuuren volyymin ja alhaisemman älykkyysosamäärän tehtävät

Gemini 1.5 Pro

Äänet, kuvat, videot ja tekstiTekstiMonimutkaiset päättelytehtävät, jotka vaativat enemmän älykkyyttä

Gemini 1.5 Flash -versiossa on 1 miljoonan tokenin konteksti-ikkuna, ja Gemini 1.5 Pro -versiossa on 2 miljoonan tokenin konteksti-ikkuna, joka on kaikkien suurten kielimallien pisin.

Yksi token vastaa noin 4 merkkiä Gemini-malleissa. 100 tokenia vastaa noin 60-80 englanninkielistä sanaa.

Käytännössä 1 miljoona tokenia näyttäisi seuraavalta:

  • 50 000 riviä koodia (80 merkkiä per rivi).
  • Yli 200 keskipitkästä podcast-jaksosta koostuvat transkriptiot.
  • 8 keskipitkä englanninkielistä romaania.
  • Kaikki tekstiviestit, jotka olet lähettänyt viimeisten viiden vuoden aikana.

Gemini 1.5 Flash and Flash-8B

Syötön token-raja1,048,576
Tokenin ulostulorajoitus8,192
Kuvien enimmäismäärä3,600
Videon enimmäispituus1 tunti
Äänen enimmäispituusNoin 9,5 tuntia

Gemini 1.5 Pro saavuttaa lähes täydellisen muistin pitkien kontekstien hakutehtävissä eri modaliteettien välillä, mikä mahdollistaa pitkien asiakirjojen, tuhansien koodirivien, tuntikausien ääni- ja videomateriaalin ja paljon muuta täsmällistä käsittelyä.

Gemini 1.5 Pro

Syötön token-raja2,097,152
Tokenin ulostulorajoitus8,192
Kuvien enimmäismäärä7,200
Videon enimmäispituus2 tuntia
Äänen enimmäispituusNoin 19 tuntia

Jokainen kuva vastaa 258 tokenia. Tuetut kuvatyypit:

  • PNG
  • WEBP
  • JPEG
  • HEIC
  • HEIF

Vaikka kuvan pikselimäärälle ei ole erityisiä rajoituksia mallin konteksti-ikkunan lisäksi, suuremmat kuvat skaalataan enintään 3072x3072 pikselin tarkkuuteen säilyttäen niiden alkuperäinen kuvasuhde, kun taas pienemmät kuvat skaalataan 768x768 pikseliin.

Näkövalmiudet:

  • Kuvatekstit ja vastaaminen kuviin liittyviin kysymyksiin.
  • Transkriboi ja päättele PDF-tiedostoja, myös pitkiä asiakirjoja, jopa 2 miljoonan tokenin konteksti-ikkunaan asti.
  • Kuvaa, segmentoi ja poimi tietoa jopa 90 minuutin pituisista videoista, mukaan lukien sekä visuaaliset kehykset että ääni.
Gemini pystyy tunnistamaan kaiken käsinkirjoitetun sisällön oikein ja tarkistamaan perustelut.

Gemini pystyy tunnistamaan kaiken käsinkirjoitetun sisällön oikein ja tarkistamaan perustelut.

Geminin ääniominaisuudet:

  • Kuvaile, tee yhteenveto tai vastaa kysymyksiin äänisisällöstä.
  • Toimittaa äänitallenteesta transkriptio.
  • Antaa vastauksia tai transkriptiota tietystä äänen osasta.

Tuetut ääniformaatit:

  • WAV
  • MP3
  • FLAC
  • OGG Vorbis
  • AIFF
  • AAC

Jokainen sekunti ääntä vastaa 25 tokenia; esimerkiksi yksi minuutti ääntä vastaa 1 500 tokenia.

Gemini 2.0 Flash

Syötön token-raja1,048,576
Tokenin ulostulorajoitus8,192

Gemini 2.0 Flash on Gemini-tuoteperheen tehokkain ja monipuolisin malli. Se voi luoda kuvia ja tuottaa puhetta, ja suorituskyvyn osalta se ylittää muut mallit lähes kaikissa tärkeimmissä vertailuarvoissa. Katso itse.

ToimintakykyVertailukohtaKuvausGemini 1.5 FlashGemini 1.5 ProGemini 2.0 Flash
YleistäMMLU-ProArvioidaan, kuinka hyvin koneoppimisen mallit ymmärtävät luonnollista kieltä67.3%75.8%76.4%
KoodiNatural2CodeKoodin luominen Pythonissa, Javassa, C++:ssa, JS:ssä ja Go:ssa79.8%85.4%92.9%
KoodiBird-SQL (Dev)Arvioidaan luonnollisen kielen kysymysten muuntamista suoritettavaksi SQL:ksi45.6%54.4%56.9%
TosiasiatFACTS GroundingKyky antaa asiasisällöltään oikeita vastauksia annettuihin asiakirjoihin ja erilaisiin käyttäjäpyyntöihin82.9%80.0%83.6%
MatematiikkaMATHHaastavat matemaattiset ongelmat (mm. algebra, geometria, esilaskenta ja muut).77.9%86.5%89.7%
MatematiikkaHiddenMathKilpailutason matemaattiset ongelmat47.2%52.0%63.0%
PohdintaGPQA (diamond)Biologian, fysiikan ja kemian asiantuntijoiden kirjoittamia haastavia kysymyksiä sisältävä tietokokonaisuus51.0%59.1%62.1%
KuvaMMMUMonialaiset korkeakoulutasoiset multimodaaliset ymmärtämis- ja päättelyongelmat62.3%65.9%70.7%
AudioCoVoST2 (21 lang)Automaattinen puheenkääntäminen37.440.139.2
VideoEgoSchema (test)Videoanalyysi66.8%71.2%71.5%

Gemini 2.0 Flash Thinking yhdistää nopeuden ja suorituskyvyn ja osoittaa huomattavaa asiantuntemusta monimutkaisten matemaattisten ja luonnontieteellisten ongelmien ratkaisemisessa. Miljoonan merkin konteksti-ikkuna mahdollistaa pitkän tekstin syvällisemmän analysoinnin. Parannettu ajattelu tarjoaa enemmän johdonmukaisuutta ajatusten ja vastausten välillä.

Gemini 2.0 Flash Thinking

Syötön token-raja1,048,576
Tokenin ulostulorajoitus65,536

Huomaa jättimäinen tulostuksen Token-ikkuna. Sen ansiosta malli voi paitsi käsitellä pitkiä pyyntöjä myös antaa laajoja vastauksia, mikä voi olla kätevää esimerkiksi suurten koodikokonaisuuksien luomisessa.

Katso, miten Gemini 2.0 Flash Thinking päihittää Gemini 1.5 Pro ja Gemini 2.0 matematiikassa, luonnontieteissä ja multimodaalisessa päättelyssä. Se ei ehkä ole yhtä monipuolinen kuin nämä kaksi mallia yleensä, mutta näillä erityisalueilla Gemini 2.0 Flash Thinking on vertaansa vailla.

Matematiikka, luonnontieteet ja päättely

Matematiikka, luonnontieteet ja päättely

Matematiikka ja luonnontieteet

Matematiikka ja luonnontieteet

Kritiikki

Gemini-keskustelurobotilla oli vaikea alku, kun se julkaistiin vuonna 2023. Kehittäjillä oli liian kiire julkaista kilpailija ChatGPT:lle. Ja siksi chatbotin julkaisuversio oli täynnä virheitä. Käyttäjät valittivat suuresta määrästä asiavirheitä ja epätarkkuuksia botin vastauksissa.

Yksi näkyvimmistä oli kuvien tuottamiseen liittyvä kiista. Gemini yritti esittää maksimaalisen rotujen moninaisuuden silloinkin, kun se oli sopimatonta. Chatbotin mukaan saksalaiset sotilaat näyttivät tältä vuonna 1943:

Saksalaiset sotilaat vuonna 1943 Geminin tuottama

Ja tältä näyttivät 1800-luvun Yhdysvaltain senaattorit:

Yhdysvaltain senaattorit 1800-luvulta Geminin tuottamina

Käyttäjien tyytymättömyyden vuoksi yhtiön osakkeet laskivat 4,5 prosenttia, mikä vastaa noin 90 miljoonan dollarin tappiota. Kehittäjät joutuivat myös tilapäisesti estämään mahdollisuuden luoda kuvia ihmisistä.

Kuvien tuottamiseen liittyvän kiistan jälkeen jotkut käyttäjät alkoivat syyttää Geminin tekstivastauksia vasemmistolaisuuteen suuntautuneiksi. Eräässä tällaisessa esimerkissä Gemini totesi, että oli ”vaikea sanoa lopullisesti”, oliko Elon Muskilla vai natsidiktaattori Adolf Hitlerillä suurempi kielteinen vaikutus yhteiskuntaan. Lisäksi muut käyttäjät huomauttivat, että Gemini näytti suosivan vasemmistolaisia poliitikkoja ja asioita, kuten positiivista toimintaa ja aborttioikeuksia, mutta ei halunnut tukea oikeistolaisia henkilöitä, lihankulutusta ja fossiilisia polttoaineita.

Mutta on sanottava, että kaikki nämä vaikeudet ovat nyt enimmäkseen takanapäin. Nyt Geminillä ei ole mitään ongelmia, ja se on yksi maailman menestyneimmistä ja suosituimmista chat-roboteista.