Gemini: ülevaade selle uuenduslikest funktsioonidest ja mudelitest

Gemini on Google'i poolt välja töötatud tehisintellektil põhinevate vestlusrobotite perekond. Praegu on Gemini kõigi juturobotite seas turuosa poolest kolmandal kohal, jäädes maha vaid ChatGPT ja Microsoft Copiloti järel. Samal ajal kasvab Gemini jätkuvalt konkurentidest kiiremini ja kogub pidevalt populaarsust: uute kasutajate lisandumise poolest on ta 4. kohal, ainult Claude kasvab tuntud jutubotidest kiiremini. Selles artiklis vaatleme Gemini ajalugu, praeguseid mudeleid, nende funktsioone ja piiranguid.

Google Gemini lühike ajalugu

Google on olnud suurte keelemudelite arhitektuuri pioneer ja tugineb oma tehisintellekti mudelite väljatöötamisel oma jõulistele teadusuuringutele.

2017: Google'i teadlased esitlevad transformer-arhitektuuri, mis on paljude tänaste suurte keelemudelite aluseks.
2020: Ettevõte tutvustab 2,6 miljardi parameetriga neuronivõrgupõhist juturobotit Meena, mille kohta Google väidab, et see on parem kui kõik teised sel ajal olemasolevad juturobotid.
2021: Meena nimetatakse ümber LaMDA-ks (lühend Language Model for Dialogue Applications), kuna selle andmed ja arvutusvõimsus suurenevad.
2022: Ilmub uus keelemudel nimega PaLM (Pathways Language Model), millel on LaMDA-ga võrreldes täiustatud võimalused.
2023: Aasta esimeses kvartalis ilmub vestlusrobot nimega Google Bard, mille taga on LaMDA kergendatud ja optimeeritud versioon. Seejärel tutvustatakse teises kvartalis PaLM 2, mis sisaldab täiustatud kodeerimist, mitmekeelset võimekust ja täiustatud arutlusoskust, mille Bard seejärel üle võtab. Lõpuks, viimases kvartalis, teatas Google Gemini 1.0.
2024: Google nimetab Bardi ümber Geminiks ja uuendab oma multimodaalse tehisintellekti mudelid versiooniks 1.5. Detsembris võetakse kasutusele Gemini 2.0 mudelid.

Aprillis 2024 ütles Google DeepMindi tegevjuht Demis Hassabis, et aja jooksul kulutab ettevõte tehisintellekti tehnoloogia arendamiseks üle 100 miljardi dollari.

Demis Hassabis

Gemini eripära

Igal juturobotil on piiratud teadmised hiljutiste sündmuste kohta, sest tema koolitusandmed hõlmavad ainult piiratud ajavahemikku. Lõpptähtaeg viitab juturobotite kontekstis ajahetkele, milleni mudel on andmete põhjal treenitud ja suudab anda teavet. Näiteks kui juturobotil on lõppkuupäev 2023. aasta oktoober, tähendab see, et kõik teadmised ja andmed, millele tal on juurdepääs, on kehtivad ainult kuni selle kuupäevani. Kõik sündmused, arengud või muutused, mis on toimunud pärast seda kuupäeva, ei kajastu vestlusroboti vastustes. See piirang on kasutajate jaoks oluline mõista, sest see mõjutab esitatud teabe täpsust ja asjakohasust, eriti kiiresti muutuvates valdkondades, nagu tehnoloogia, poliitika või päevakajalised sündmused. Gemini suudab seda piirangut siiski vältida, kasutades ja töötledes Google Searchi kaudu veebiotsingutest saadud teavet, pakkudes ajakohasemaid vastuseid.

Sellest tulenevalt võib kasutajatel olla vaja kontrollida teavet uuematest allikatest, kui nad otsivad viimaseid uuendusi või teadmisi. Mõnikord näitab Gemini oma vastuse sees ja all allikad ja nendega seotud sisu. Need sisaldavad sarnast teavet sisaldavaid veebiallikaid ja linke, mille kaudu saate süveneda. Gemini on loodud originaalsisu genereerimiseks, kuid kui ta tsiteerib pikemalt otse veebilehelt, näete tsitaatmärki koos viidatud allikaga ja linki sellele lehele. Allikad ja nendega seotud sisu võivad sisaldada veebisaite, mida Gemini tsiteeris või mis on seotud tema vastuse osadega. Kui Gemini vastus sisaldab veebist pärineva pildi pisipilti, näidatakse allikat ja antakse otselink sellele.

Gemini oli algusest peale multimodaalne, mis tähendab, et seda õpetati mitut tüüpi andmetel ja nüüd saab see sujuvalt töötada eri tüüpi sisuga. Nagu ülaltoodud pildil näha, saab bott oma vastustes kasutada ka pilte. Gemini saab aru tekstist, helist, videofragmentidest, käsitsi kirjutatud märkmetest, graafikutest, diagrammidest, suudab tuvastada objekte fotodel ja lisaks sellele suudab luua pilte, kasutades Imagen 3, Google'i kõige arenenumat teksti-pildi mudelit.

Vestlusrobotil on ka laialdased mitmekeelsed võimalused, kuna see on saadaval 46 erinevas keeles.

Praegused mudelid, nende tugevused ja võimalused

Gemini pakub erinevaid mudeleid, mis on optimeeritud konkreetsete kasutusjuhtumite jaoks. Siin on lühiülevaade olemasolevatest variantidest:

Mudel	Sisend	Väljund	Kirjeldus
Gemini 2.0 Flash	Heli, pildid, videod ja tekst	Tekst, pildid (varsti) ja heli (varsti)	Järgmise põlvkonna funktsioonid, kiirus ja multimodaalne genereerimine mitmesuguste ülesannete jaoks
Gemini 2.0 Flash Thinking	Tekst, pildid	Tekst	Täiustatud arutlusmudel, mis paistab silma loodusteadustes ja matemaatikas
Gemini 1.5 Flash	Heli, pildid, videod ja tekst	Tekst	Kiire ja mitmekülgne jõudlus mitmesuguste ülesannete täitmisel
Gemini 1.5 Flash-8B	Heli, pildid, videod ja tekst	Tekst	Suure mahuga ja vähem intelligentsed ülesanded
Gemini 1.5 Pro	Heli, pildid, videod ja tekst	Tekst	Keerulised arutlusülesanded, mis nõuavad suuremat intelligentsust

Gemini 1.5 Flash on varustatud 1 miljoni tokeni kontekstiaknaga ja Gemini 1.5 Pro on varustatud 2 miljoni tokeni kontekstiaknaga, mis on pikim mis tahes suure keele mudelist.

Üks token vastab umbes 4 tähemärgile Gemini mudelite puhul. 100 tokenit vastab umbes 60-80 ingliskeelsele sõnale.

Praktikas näeks 1 miljon tokenit välja järgmiselt:

50 000 rida koodi (standardselt 80 tähemärki rea kohta).
Üle 200 keskmise pikkusega podcasti episoodi transkriptsioon.
8 keskmise pikkusega ingliskeelset romaani.
Kõik viimase 5 aasta jooksul saadetud tekstisõnumid.

Gemini 1.5 Flash and Flash-8B
Sisendi tokeni piirang	1,048,576
Väljundi tokeni piirang	8,192
Piltide maksimaalne arv	3,600
Video maksimaalne pikkus	1 tund
Maksimaalne helipikkus	Umbes 9,5 tundi

Gemini 1.5 Pro saavutab peaaegu täiusliku mälu pika kontekstiga otsinguülesannete puhul, võimaldades täpselt töödelda pikki dokumente, tuhandeid koodiridu, tundide pikkust heli, videot ja muud.

Gemini 1.5 Pro
Sisendi tokeni piirang	2,097,152
Väljundi tokeni piirang	8,192
Piltide maksimaalne arv	7,200
Video maksimaalne pikkus	2 tundi
Maksimaalne helipikkus	Umbes 19 tundi

Iga pilt vastab 258 tokenile. Toetatud pilditüübid:

PNG
WEBP
JPEG
HEIC
HEIF

Kuigi pildi pikslite arvule ei ole konkreetseid piiranguid peale mudeli kontekstiakna, skaleeritakse suuremad pildid maksimaalse resolutsioonini 3072x3072, säilitades samal ajal nende algse kuvasuhte, samas kui väiksemad pildid skaleeritakse kuni 768x768 pikslini.

Nägemisvõime:

Pildiallkirjad ja küsimustele vastamine piltide kohta.
Transkribeerimine ja arutlemine üle PDF-failide, sealhulgas pikkade dokumentide kuni 2 miljoni tokeni ulatuva kontekstiaknaga.
Kirjeldage, segmenteerige ja eraldage teavet kuni 90-minutilistest videotest, sealhulgas nii visuaalsetest kaadritest kui ka helist.

Gemini suudab kogu käsitsi kirjutatud sisu õigesti ära tunda ja põhjendusi kontrollida.

Gemini helivõimekus:

Kirjeldage, tehke kokkuvõtteid või vastake küsimustele audiosisu kohta.
Andke heli transkriptsioon.
Anda vastuseid või transkriptsiooni konkreetse helisegmendi kohta.

Toetatud audioformaadid:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

Iga sekund heli vastab 25 tokenile; näiteks üks minut heli kujutab endast 1500 tokenit.

Gemini 2.0 Flash
Sisendi tokeni piirang	1,048,576
Väljundi tokeni piirang	8,192

Gemini 2.0 Flash on Gemini perekonna kõige võimsam ja mitmekülgsem mudel. See suudab loomupäraselt luua pilte ja genereerida kõnet ning jõudluse osas ületab see teisi mudeleid peaaegu kõigis peamistes võrdlusnäitajates. Vaadake ise.

Võimekus	Võrdlusalus	Kirjeldus	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
Üldine	MMLU-Pro	Hinnatakse, kui hästi masinõppe mudelid mõistavad loomulikku keelt	67.3%	75.8%	76.4%
Kood	Natural2Code	Python, Java, C++, JS, Go koodide genereerimine	79.8%	85.4%	92.9%
Kood	Bird-SQL (Dev)	Hindab loomuliku keele küsimuste teisendamist käivitatavaks SQL-ks	45.6%	54.4%	56.9%
Faktilisus	FACTS Grounding	Oskus anda faktiliselt õigeid vastuseid antud dokumentidele ja erinevatele kasutajate taotlustele	82.9%	80.0%	83.6%
Matemaatika	MATH	Väljakutsuvad matemaatikaülesanded (sh algebra, geomeetria, eelkalkulatsioon ja muud).	77.9%	86.5%	89.7%
Matemaatika	HiddenMath	Võistlustasandi matemaatikaülesanded	47.2%	52.0%	63.0%
Põhjendused	GPQA (diamond)	Bioloogia, füüsika ja keemia valdkonna ekspertide koostatud keeruliste küsimuste andmestik	51.0%	59.1%	62.1%
Pilt	MMMU	Mitmekesine kolledžitasemel multimoodne mõistmine ja arutlusprobleemid	62.3%	65.9%	70.7%
Audio	CoVoST2 (21 lang)	Automaatne kõnetõlge	37.4	40.1	39.2
Video	EgoSchema (test)	Videoanalüüs	66.8%	71.2%	71.5%

Gemini 2.0 Flash Thinking ühendab endas kiiruse ja jõudluse, näidates märkimisväärset asjatundlikkust keeruliste probleemide lahendamisel nii matemaatikas kui ka loodusteadustes. Ühe miljoni tokeni suurune kontekstiaken võimaldab pikemate tekstide sügavamat analüüsi. Täiustatud mõtlemine tagab suurema järjepidevuse mõtete ja vastuste vahel.

Gemini 2.0 Flash Thinking
Sisendi tokeni piirang	1,048,576
Väljundi tokeni piirang	65,536

Pange tähele hiiglaslikku väljundtokendi akent. See võimaldab mudelil mitte ainult töödelda pikki päringuid, vaid ka anda tagasi ulatuslikke vastuseid, mis võivad tulla kasuks näiteks suurte koodiplokkide genereerimiseks.

Vaadake, kuidas Gemini 2.0 Flash Thinking ületab Gemini 1.5 Pro ja Gemini 2.0 matemaatikas, loodusteadustes ja multimodaalses mõtlemises. See ei pruugi olla nii mitmekülgne kui need kaks mudelit üldiselt, kuid nendes konkreetsetes valdkondades on Gemini 2.0 Flash Thinking ületamatu.

Matemaatika, teadus ja mõtlemine

Matemaatika ja teadus

Kriitika

Gemini juturobotil oli raske algus, kui see 2023. aastal välja anti. Arendajad kiirustasid liiga palju, et avaldada konkurent ChatGPT-le. Ja sellepärast oli juturoboti väljalaskeversioon täis vigu. Kasutajad kurtsid suure hulga faktivigade ja ebatäpsuste üle boti vastustes.

Üks kõige suuremaid oli pildi genereerimisega seotud vaidlus. Gemini püüdis esitada maksimaalset rassilist mitmekesisust isegi seal, kus see oli ebasobiv. Vestlusroboti sõnul nägid Saksa sõdurid 1943. aastal välja just sellised:

Saksa sõdurid 1943. aastal, genereeritud Gemini poolt

Ja nii nägid välja 1800. aastate USA senaatorid:

Ameerika Ühendriikide senaatorid 1800. aastatest, mille on genereerinud Gemini

Kasutajate rahulolematuse tõttu langes ettevõtte aktsia 4,5%, mis vastab ligikaudu 90 miljoni dollari suurusele kahjumile. Samuti pidid arendajad ajutiselt blokeerima inimeste piltide loomise võimaluse.

Pärast piltide genereerimisega seotud vaidlusi hakkasid mõned kasutajad süüdistama Gemini tekstivastuseid vasakpoolsuse suhtes kallutatud olekus. Ühes sellises näites väitis Gemini, et on „raske lõplikult öelda“, kas Elon Musk või natsidiktaator Adolf Hitler avaldas ühiskonnale suuremat negatiivset mõju. Lisaks märkisid teised kasutajad, et Gemini näis soosivat vasakpoolseid poliitikuid ja selliseid teemasid nagu positiivsed meetmed ja abortimisõigused, samas kui ta ei toetanud parempoolseid tegelasi, liha tarbimist ja fossiilkütuste kasutamist.

Kuid tuleb öelda, et kõik need raskused on nüüdseks enamasti seljataga. Nüüd ei ole Geminil mingeid probleeme ja ta on üks edukamaid ja populaarsemaid vestlusroboteid maailmas.