Tagasi pealehele

Gemini: ülevaade selle uuenduslikest funktsioonidest ja mudelitest

Gemini on Google'i poolt välja töötatud tehisintellektil põhinevate vestlusrobotite perekond. Praegu on Gemini kõigi juturobotite seas turuosa poolest kolmandal kohal, jäädes maha vaid ChatGPT ja Microsoft Copiloti järel. Samal ajal kasvab Gemini jätkuvalt konkurentidest kiiremini ja kogub pidevalt populaarsust: uute kasutajate lisandumise poolest on ta 4. kohal, ainult Claude kasvab tuntud jutubotidest kiiremini. Selles artiklis vaatleme Gemini ajalugu, praeguseid mudeleid, nende funktsioone ja piiranguid.

Google Gemini lühike ajalugu

Google on olnud suurte keelemudelite arhitektuuri pioneer ja tugineb oma tehisintellekti mudelite väljatöötamisel oma jõulistele teadusuuringutele.

  • 2017: Google'i teadlased esitlevad transformer-arhitektuuri, mis on paljude tänaste suurte keelemudelite aluseks.
  • 2020: Ettevõte tutvustab 2,6 miljardi parameetriga neuronivõrgupõhist juturobotit Meena, mille kohta Google väidab, et see on parem kui kõik teised sel ajal olemasolevad juturobotid.
  • 2021: Meena nimetatakse ümber LaMDA-ks (lühend Language Model for Dialogue Applications), kuna selle andmed ja arvutusvõimsus suurenevad.
  • 2022: Ilmub uus keelemudel nimega PaLM (Pathways Language Model), millel on LaMDA-ga võrreldes täiustatud võimalused.
  • 2023: Aasta esimeses kvartalis ilmub vestlusrobot nimega Google Bard, mille taga on LaMDA kergendatud ja optimeeritud versioon. Seejärel tutvustatakse teises kvartalis PaLM 2, mis sisaldab täiustatud kodeerimist, mitmekeelset võimekust ja täiustatud arutlusoskust, mille Bard seejärel üle võtab. Lõpuks, viimases kvartalis, teatas Google Gemini 1.0.
  • 2024: Google nimetab Bardi ümber Geminiks ja uuendab oma multimodaalse tehisintellekti mudelid versiooniks 1.5. Detsembris võetakse kasutusele Gemini 2.0 mudelid.

Aprillis 2024 ütles Google DeepMindi tegevjuht Demis Hassabis, et aja jooksul kulutab ettevõte tehisintellekti tehnoloogia arendamiseks üle 100 miljardi dollari.

Demis Hassabis

Demis Hassabis

Gemini eripära

Igal juturobotil on piiratud teadmised hiljutiste sündmuste kohta, sest tema koolitusandmed hõlmavad ainult piiratud ajavahemikku. Lõpptähtaeg viitab juturobotite kontekstis ajahetkele, milleni mudel on andmete põhjal treenitud ja suudab anda teavet. Näiteks kui juturobotil on lõppkuupäev 2023. aasta oktoober, tähendab see, et kõik teadmised ja andmed, millele tal on juurdepääs, on kehtivad ainult kuni selle kuupäevani. Kõik sündmused, arengud või muutused, mis on toimunud pärast seda kuupäeva, ei kajastu vestlusroboti vastustes. See piirang on kasutajate jaoks oluline mõista, sest see mõjutab esitatud teabe täpsust ja asjakohasust, eriti kiiresti muutuvates valdkondades, nagu tehnoloogia, poliitika või päevakajalised sündmused. Gemini suudab seda piirangut siiski vältida, kasutades ja töötledes Google Searchi kaudu veebiotsingutest saadud teavet, pakkudes ajakohasemaid vastuseid.

Sellest tulenevalt võib kasutajatel olla vaja kontrollida teavet uuematest allikatest, kui nad otsivad viimaseid uuendusi või teadmisi. Mõnikord näitab Gemini oma vastuse sees ja all allikad ja nendega seotud sisu. Need sisaldavad sarnast teavet sisaldavaid veebiallikaid ja linke, mille kaudu saate süveneda. Gemini on loodud originaalsisu genereerimiseks, kuid kui ta tsiteerib pikemalt otse veebilehelt, näete tsitaatmärki koos viidatud allikaga ja linki sellele lehele. Allikad ja nendega seotud sisu võivad sisaldada veebisaite, mida Gemini tsiteeris või mis on seotud tema vastuse osadega. Kui Gemini vastus sisaldab veebist pärineva pildi pisipilti, näidatakse allikat ja antakse otselink sellele.

Gemini näitab pilte New Yorgist

Gemini oli algusest peale multimodaalne, mis tähendab, et seda õpetati mitut tüüpi andmetel ja nüüd saab see sujuvalt töötada eri tüüpi sisuga. Nagu ülaltoodud pildil näha, saab bott oma vastustes kasutada ka pilte. Gemini saab aru tekstist, helist, videofragmentidest, käsitsi kirjutatud märkmetest, graafikutest, diagrammidest, suudab tuvastada objekte fotodel ja lisaks sellele suudab luua pilte, kasutades Imagen 3, Google'i kõige arenenumat teksti-pildi mudelit.

Vestlusrobotil on ka laialdased mitmekeelsed võimalused, kuna see on saadaval 46 erinevas keeles.

Praegused mudelid, nende tugevused ja võimalused

Gemini pakub erinevaid mudeleid, mis on optimeeritud konkreetsete kasutusjuhtumite jaoks. Siin on lühiülevaade olemasolevatest variantidest:

MudelSisendVäljundKirjeldus

Gemini 2.0 Flash

Heli, pildid, videod ja tekstTekst, pildid (varsti) ja heli (varsti)Järgmise põlvkonna funktsioonid, kiirus ja multimodaalne genereerimine mitmesuguste ülesannete jaoks

Gemini 2.0 Flash Thinking

Tekst, pildidTekstTäiustatud arutlusmudel, mis paistab silma loodusteadustes ja matemaatikas

Gemini 1.5 Flash

Heli, pildid, videod ja tekstTekstKiire ja mitmekülgne jõudlus mitmesuguste ülesannete täitmisel

Gemini 1.5 Flash-8B

Heli, pildid, videod ja tekstTekstSuure mahuga ja vähem intelligentsed ülesanded

Gemini 1.5 Pro

Heli, pildid, videod ja tekstTekstKeerulised arutlusülesanded, mis nõuavad suuremat intelligentsust

Gemini 1.5 Flash on varustatud 1 miljoni tokeni kontekstiaknaga ja Gemini 1.5 Pro on varustatud 2 miljoni tokeni kontekstiaknaga, mis on pikim mis tahes suure keele mudelist.

Üks token vastab umbes 4 tähemärgile Gemini mudelite puhul. 100 tokenit vastab umbes 60-80 ingliskeelsele sõnale.

Praktikas näeks 1 miljon tokenit välja järgmiselt:

  • 50 000 rida koodi (standardselt 80 tähemärki rea kohta).
  • Üle 200 keskmise pikkusega podcasti episoodi transkriptsioon.
  • 8 keskmise pikkusega ingliskeelset romaani.
  • Kõik viimase 5 aasta jooksul saadetud tekstisõnumid.

Gemini 1.5 Flash and Flash-8B

Sisendi tokeni piirang1,048,576
Väljundi tokeni piirang8,192
Piltide maksimaalne arv3,600
Video maksimaalne pikkus1 tund
Maksimaalne helipikkusUmbes 9,5 tundi

Gemini 1.5 Pro saavutab peaaegu täiusliku mälu pika kontekstiga otsinguülesannete puhul, võimaldades täpselt töödelda pikki dokumente, tuhandeid koodiridu, tundide pikkust heli, videot ja muud.

Gemini 1.5 Pro

Sisendi tokeni piirang2,097,152
Väljundi tokeni piirang8,192
Piltide maksimaalne arv7,200
Video maksimaalne pikkus2 tundi
Maksimaalne helipikkusUmbes 19 tundi

Iga pilt vastab 258 tokenile. Toetatud pilditüübid:

  • PNG
  • WEBP
  • JPEG
  • HEIC
  • HEIF

Kuigi pildi pikslite arvule ei ole konkreetseid piiranguid peale mudeli kontekstiakna, skaleeritakse suuremad pildid maksimaalse resolutsioonini 3072x3072, säilitades samal ajal nende algse kuvasuhte, samas kui väiksemad pildid skaleeritakse kuni 768x768 pikslini.

Nägemisvõime:

  • Pildiallkirjad ja küsimustele vastamine piltide kohta.
  • Transkribeerimine ja arutlemine üle PDF-failide, sealhulgas pikkade dokumentide kuni 2 miljoni tokeni ulatuva kontekstiaknaga.
  • Kirjeldage, segmenteerige ja eraldage teavet kuni 90-minutilistest videotest, sealhulgas nii visuaalsetest kaadritest kui ka helist.
Gemini suudab kogu käsitsi kirjutatud sisu õigesti ära tunda ja põhjendusi kontrollida.

Gemini suudab kogu käsitsi kirjutatud sisu õigesti ära tunda ja põhjendusi kontrollida.

Gemini helivõimekus:

  • Kirjeldage, tehke kokkuvõtteid või vastake küsimustele audiosisu kohta.
  • Andke heli transkriptsioon.
  • Anda vastuseid või transkriptsiooni konkreetse helisegmendi kohta.

Toetatud audioformaadid:

  • WAV
  • MP3
  • FLAC
  • OGG Vorbis
  • AIFF
  • AAC

Iga sekund heli vastab 25 tokenile; näiteks üks minut heli kujutab endast 1500 tokenit.

Gemini 2.0 Flash

Sisendi tokeni piirang1,048,576
Väljundi tokeni piirang8,192

Gemini 2.0 Flash on Gemini perekonna kõige võimsam ja mitmekülgsem mudel. See suudab loomupäraselt luua pilte ja genereerida kõnet ning jõudluse osas ületab see teisi mudeleid peaaegu kõigis peamistes võrdlusnäitajates. Vaadake ise.

VõimekusVõrdlusalusKirjeldusGemini 1.5 FlashGemini 1.5 ProGemini 2.0 Flash
ÜldineMMLU-ProHinnatakse, kui hästi masinõppe mudelid mõistavad loomulikku keelt67.3%75.8%76.4%
KoodNatural2CodePython, Java, C++, JS, Go koodide genereerimine79.8%85.4%92.9%
KoodBird-SQL (Dev)Hindab loomuliku keele küsimuste teisendamist käivitatavaks SQL-ks45.6%54.4%56.9%
FaktilisusFACTS GroundingOskus anda faktiliselt õigeid vastuseid antud dokumentidele ja erinevatele kasutajate taotlustele82.9%80.0%83.6%
MatemaatikaMATHVäljakutsuvad matemaatikaülesanded (sh algebra, geomeetria, eelkalkulatsioon ja muud).77.9%86.5%89.7%
MatemaatikaHiddenMathVõistlustasandi matemaatikaülesanded47.2%52.0%63.0%
PõhjendusedGPQA (diamond)Bioloogia, füüsika ja keemia valdkonna ekspertide koostatud keeruliste küsimuste andmestik51.0%59.1%62.1%
PiltMMMUMitmekesine kolledžitasemel multimoodne mõistmine ja arutlusprobleemid62.3%65.9%70.7%
AudioCoVoST2 (21 lang)Automaatne kõnetõlge37.440.139.2
VideoEgoSchema (test)Videoanalüüs66.8%71.2%71.5%

Gemini 2.0 Flash Thinking ühendab endas kiiruse ja jõudluse, näidates märkimisväärset asjatundlikkust keeruliste probleemide lahendamisel nii matemaatikas kui ka loodusteadustes. Ühe miljoni tokeni suurune kontekstiaken võimaldab pikemate tekstide sügavamat analüüsi. Täiustatud mõtlemine tagab suurema järjepidevuse mõtete ja vastuste vahel.

Gemini 2.0 Flash Thinking

Sisendi tokeni piirang1,048,576
Väljundi tokeni piirang65,536

Pange tähele hiiglaslikku väljundtokendi akent. See võimaldab mudelil mitte ainult töödelda pikki päringuid, vaid ka anda tagasi ulatuslikke vastuseid, mis võivad tulla kasuks näiteks suurte koodiplokkide genereerimiseks.

Vaadake, kuidas Gemini 2.0 Flash Thinking ületab Gemini 1.5 Pro ja Gemini 2.0 matemaatikas, loodusteadustes ja multimodaalses mõtlemises. See ei pruugi olla nii mitmekülgne kui need kaks mudelit üldiselt, kuid nendes konkreetsetes valdkondades on Gemini 2.0 Flash Thinking ületamatu.

Matemaatika, teadus ja mõtlemine

Matemaatika, teadus ja mõtlemine

Matemaatika ja teadus

Matemaatika ja teadus

Kriitika

Gemini juturobotil oli raske algus, kui see 2023. aastal välja anti. Arendajad kiirustasid liiga palju, et avaldada konkurent ChatGPT-le. Ja sellepärast oli juturoboti väljalaskeversioon täis vigu. Kasutajad kurtsid suure hulga faktivigade ja ebatäpsuste üle boti vastustes.

Üks kõige suuremaid oli pildi genereerimisega seotud vaidlus. Gemini püüdis esitada maksimaalset rassilist mitmekesisust isegi seal, kus see oli ebasobiv. Vestlusroboti sõnul nägid Saksa sõdurid 1943. aastal välja just sellised:

Saksa sõdurid 1943. aastal, genereeritud Gemini poolt

Ja nii nägid välja 1800. aastate USA senaatorid:

Ameerika Ühendriikide senaatorid 1800. aastatest, mille on genereerinud Gemini

Kasutajate rahulolematuse tõttu langes ettevõtte aktsia 4,5%, mis vastab ligikaudu 90 miljoni dollari suurusele kahjumile. Samuti pidid arendajad ajutiselt blokeerima inimeste piltide loomise võimaluse.

Pärast piltide genereerimisega seotud vaidlusi hakkasid mõned kasutajad süüdistama Gemini tekstivastuseid vasakpoolsuse suhtes kallutatud olekus. Ühes sellises näites väitis Gemini, et on „raske lõplikult öelda“, kas Elon Musk või natsidiktaator Adolf Hitler avaldas ühiskonnale suuremat negatiivset mõju. Lisaks märkisid teised kasutajad, et Gemini näis soosivat vasakpoolseid poliitikuid ja selliseid teemasid nagu positiivsed meetmed ja abortimisõigused, samas kui ta ei toetanud parempoolseid tegelasi, liha tarbimist ja fossiilkütuste kasutamist.

Kuid tuleb öelda, et kõik need raskused on nüüdseks enamasti seljataga. Nüüd ei ole Geminil mingeid probleeme ja ta on üks edukamaid ja populaarsemaid vestlusroboteid maailmas.