„Gemini": naujoviškų funkcijų ir modelių apžvalga

„Gemini“ - tai ‚Google‘ sukurta dirbtiniu intelektu pagrįstų pokalbių robotų šeima. Šiuo metu „Gemini“ užima trečią vietą tarp visų pokalbių robotų pagal rinkos dalį, nusileisdama tik „ChatGPT“ ir „Microsoft Copilot“. Kartu „Gemini“ ir toliau auga sparčiau už savo konkurentus ir nuolat populiarėja: pagal naujų naudotojų srautą ji užima 4 vietą, o tarp žinomų pokalbių robotų sparčiau auga tik „Claude“. Šiame straipsnyje apžvelgsime „Gemini“ istoriją, dabartinius modelius, jų funkcijas ir apribojimus.

Trumpa „Google Gemini“ istorija

Bendrovė „Google“ buvo didelių kalbos modelių architektūros pradininkė ir, remdamasi patikimais tyrimais, kuria savo dirbtinio intelekto modelius.

2017: „Google“ tyrėjai pristato transformatoriaus architektūrą, kuri yra daugelio dabartinių didelių kalbos modelių pagrindas.
2020: Įmonė pristato „Meena“ - neuroniniu tinklu pagrįstą pokalbių robotą su 2,6 mlrd. parametrų, kuris, „Google“ teigimu, yra pranašesnis už visus kitus tuo metu egzistuojančius pokalbių robotus.
2021: Meena pervadinama į LaMDA (trumpinys - Language Model for Dialogue Applications), nes padaugėjo duomenų ir kompiuterinės galios.
2022 m.: išleidžiamas naujas kalbos modelis, pavadintas PaLM (Pathways Language Model), turintis pažangesnes galimybes, palyginti su LaMDA.
2023: Pirmąjį metų ketvirtį išleidžiamas pokalbių robotas, pavadintas „Google Bard“, paremtas lengva ir optimizuota LaMDA versija. Tada antrąjį ketvirtį pristatoma PaLM 2, pasižyminti patobulintu kodavimu, daugiakalbėmis galimybėmis ir patobulintais samprotavimo įgūdžiais, kuriuos vėliau perima Bardas. Galiausiai paskutinį ketvirtį „Google“ paskelbė apie „Gemini 1.0“.
2024: „Google“ pervadina „Bard“ į „Gemini“ ir atnaujina daugialypės terpės dirbtinio intelekto modelius iki 1.5 versijos. Gruodžio mėn. pristatomi „Gemini 2.0“ modeliai.

2024 m. balandį „Google DeepMind“ vadovas Demis Hassabis pareiškė, kad laikui bėgant bendrovė dirbtinio intelekto technologijų kūrimui išleis daugiau nei 100 mlrd. dolerių.

Demis Hassabis

„Gemini“ išskirtiniai bruožai

Kiekvienas pokalbių robotas turi ribotas žinias apie naujausius įvykius, nes jo mokymo duomenys apima tik ribotą laiko tarpą. Ribinė data pokalbių robotų kontekste reiškia laiko momentą, iki kurio modelis buvo apmokytas pagal duomenis ir gali teikti informaciją. Pavyzdžiui, jei pokalbių roboto ribinė data yra 2023 m. spalis, tai reiškia, kad visos žinios ir duomenys, prie kurių jis turi prieigą, yra aktualūs tik iki tos datos. Bet kokie įvykiai, įvykiai ar pokyčiai, įvykę po šios datos, neatsispindės pokalbių roboto atsakymuose. Šį apribojimą svarbu suprasti naudotojams, nes jis turi įtakos pateikiamos informacijos tikslumui ir aktualumui, ypač sparčiai besikeičiančiose srityse, pavyzdžiui, technologijų, politikos ar aktualijų. Tačiau „Gemini“ gali apeiti šį apribojimą, pasiekdamas ir apdorodamas informaciją iš internetinių paieškų per „Google Search“, todėl pateikia aktualesnius atsakymus.

Todėl naudotojams gali tekti patikrinti informaciją iš naujesnių šaltinių, jei jie ieško naujausių atnaujinimų ar įžvalgų. Kartais „Gemini“ rodo šaltinius ir susijusį turinį savo atsakyme ir po juo. Tai apima interneto šaltinius su panašia informacija ir nuorodomis, kad galėtumėte gilintis. Programa „Gemini“ sukurta taip, kad kurtų originalų turinį, tačiau jei ji tiesiogiai ir išsamiai cituoja interneto puslapį, pamatysite citatos ženklą su nurodytu šaltiniu ir nuorodą į tą puslapį. Šaltiniai ir susijęs turinys gali apimti interneto svetaines, kurias „Gemini“ citavo arba kurios susijusios su jo atsakymo dalimis. Jei „Gemini“ atsakyme pateikiama paveikslėlio iš interneto miniatiūra, bus rodomas šaltinis ir pateikiama tiesioginė nuoroda į jį.

Gemini was designed multimodal from the get-go, meaning it was trained on multiple data types, and now it can seamlessly work with different types of content. As you can see on the picture above, the bot can include images in its responses. Gemini can understand text, audio, video fragments, handwritten notes, graphs, diagrams, can identify objects on photos, and on top of that can generate images using Imagen 3, Google’s most advanced text-to-image model.

The chatbot also has broad multilingual capabilities as it is available in 46 different languages.

Dabartiniai modeliai, jų privalumai ir galimybės

„Gemini“ siūlo skirtingus modelius, optimizuotus konkretiems naudojimo atvejams. Pateikiame trumpą galimų variantų apžvalgą:

Modelis	Įvestis	Išėjimas	Aprašymas
Gemini 2.0 Flash	Garso įrašai, vaizdai, vaizdo įrašai ir tekstas	Tekstas, vaizdai (netrukus) ir garsas (netrukus)	Naujos kartos funkcijos, greitis ir daugiamodalinis generavimas įvairioms užduotims atlikti
Gemini 2.0 Flash Thinking	Tekstas, vaizdai	Tekstas	Patobulintas mąstymo modelis, kuris puikiai tinka gamtos mokslams ir matematikai
Gemini 1.5 Flash	Garso įrašai, vaizdai, vaizdo įrašai ir tekstas	Tekstas	Greitas ir universalus veikimas atliekant įvairias užduotis
Gemini 1.5 Flash-8B	Garso įrašai, vaizdai, vaizdo įrašai ir tekstas	Tekstas	Didelės apimties ir mažesnio intelekto užduotys
Gemini 1.5 Pro	Garso įrašai, vaizdai, vaizdo įrašai ir tekstas	Tekstas	Sudėtingos samprotavimo užduotys, kurioms reikia daugiau intelekto

„Gemini 1.5 Flash“ turi 1 mln. tokenų konteksto langą, o „Gemini 1.5 Pro“ - 2 mln. tokenų konteksto langą, kuris yra ilgiausias iš visų didžiųjų kalbų modelių.

Vienas tokenas atitinka maždaug 4 „Gemini“ modelių simbolius. 100 tokenų yra maždaug 60-80 angliškų žodžių.

Praktiškai 1 milijonas tokenų atrodytų taip:

50 000 kodo eilučių (su standartiniais 80 simbolių vienoje eilutėje).
Daugiau nei 200 vidutinio ilgio podkasto epizodų transkripcijos.
8 vidutinio ilgio angliški romanai.
Visos tekstinės žinutės, kurias išsiuntėte per pastaruosius 5 metus.

Gemini 1.5 Flash and Flash-8B
Įvesties tokenų riba	1,048,576
Išvesties tokenų riba	8,192
Didžiausias vaizdų skaičius	3,600
Didžiausias vaizdo įrašo ilgis	1 val.
Didžiausias garso įrašo ilgis	Maždaug 9,5 valandos

„Gemini 1.5 Pro“ pasiekia beveik tobulą ilgo konteksto paieškos užduočių atgaminimą įvairiose modalumo srityse, todėl galite tiksliai apdoroti ilgus dokumentus, tūkstančius kodo eilučių, valandų valandas garso ir vaizdo įrašų ir kt.

Gemini 1.5 Pro
Įvesties tokenų riba	2,097,152
Išvesties tokenų riba	8,192
Didžiausias vaizdų skaičius	7,200
Didžiausias vaizdo įrašo ilgis	2 valandos
Didžiausias garso įrašo ilgis	Maždaug 19 valandų

Kiekvienas vaizdas atitinka 258 tokenus. Palaikomi vaizdų tipai:

PNG
WEBP
JPEG
HEIC
HEIF

Nors, be modelio kontekstinio lango, nėra jokių konkrečių apribojimų dėl vaizdo pikselių skaičiaus, didesni vaizdai yra sumažinami iki didžiausios 3072x3072 skiriamosios gebos, išsaugant jų pradinį kraštinių santykį, o mažesni vaizdai sumažinami iki 768x768 pikselių.

Regėjimo galimybės:

Parašykite antraštes ir atsakykite į klausimus apie vaizdus.
Perrašykite ir pagrįskite PDF dokumentus, įskaitant ilgus dokumentus iki 2 mln. tokenų kontekstiniame lange.
Aprašykite, segmentuokite ir išgaukite informaciją iš vaizdo įrašų, įskaitant iki 90 minučių trukmės vaizdo ir garso kadrus.

„Gemini“ sugeba teisingai atpažinti visą ranka rašytą turinį ir patikrinti pagrindimą.

„Gemini“ garso galimybes:

Aprašykite, apibendrinkite arba atsakykite į klausimus apie garso turinį.
Pateikite garso įrašo transkripciją.
Pateikti atsakymus arba transkripciją apie konkretų garso įrašo segmentą.

Palaikomi garso formatai:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

Kiekviena garso įrašo sekundė atitinka 25 tokenus; pavyzdžiui, viena garso įrašo minutė yra 1 500 tokenų.

Gemini 2.0 Flash
Įvesties tokenų riba	1,048,576
Išvesties tokenų riba	8,192

„Gemini 2.0 Flash“ yra galingiausias ir universaliausias „Gemini“ šeimos modelis. Jis gali natūraliai kurti vaizdus ir generuoti kalbą, o pagal našumą lenkia kitus modelius beveik visuose pagrindiniuose lyginamuosiuose rodikliuose. Įsitikinkite patys.

Gebėjimai	Lyginamasis standartas	Aprašymas	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
Bendra	MMLU-Pro	Vertina, kaip gerai mašininio mokymosi modeliai supranta natūralią kalbą	67.3%	75.8%	76.4%
Kodas	Natural2Code	„Python“, ‚Java‘, ‚C++‘, ‚JS‘, ‚Go‘ kodų generavimas	79.8%	85.4%	92.9%
Kodas	Bird-SQL (Dev)	Vertinamas natūralios kalbos klausimų konvertavimas į vykdytiną SQL	45.6%	54.4%	56.9%
Faktiškumas	FACTS Grounding	Gebėjimas pateikti faktiškai teisingus atsakymus į pateiktus dokumentus ir įvairias naudotojų užklausas	82.9%	80.0%	83.6%
Matematika	MATH	Sudėtingi matematikos uždaviniai (įskaitant algebrą, geometriją, ikiskaičiavimą ir kt.)	77.9%	86.5%	89.7%
Matematika	HiddenMath	Konkurso lygio matematikos uždaviniai	47.2%	52.0%	63.0%
Argumentavimas	GPQA (diamond)	Sudėtingas duomenų rinkinys, sudarytas iš klausimų, kuriuos parašė biologijos, fizikos ir chemijos sričių ekspertai	51.0%	59.1%	62.1%
Vaizdas	MMMU	Daugiadisciplininės kolegijos lygio daugiamodalės supratimo ir samprotavimo problemos	62.3%	65.9%	70.7%
Garso	CoVoST2 (21 lang)	Automatinis kalbos vertimas	37.4	40.1	39.2
Vaizdo įrašas	EgoSchema (test)	Vaizdo įrašų analizė	66.8%	71.2%	71.5%

„Gemini 2.0 Flash Thinking“ suderina greitį ir našumą, pademonstruodamas puikią patirtį sprendžiant sudėtingas matematikos ir gamtos mokslų problemas. Vieno milijono tokenų kontekstinis langas leidžia giliau analizuoti ilgos formos tekstą. Patobulintas mąstymas užtikrina didesnį minčių ir atsakymų nuoseklumą.

Gemini 2.0 Flash Thinking
Įvesties tokenų riba	1,048,576
Išvesties tokenų riba	65,536

Atkreipkite dėmesį į didžiulį išvesties tokenų langą. Jis leidžia modeliui ne tik apdoroti ilgas užklausas, bet ir pateikti išsamius atsakymus, kurie gali praversti, pavyzdžiui, generuojant dideles kodo dalis.

Pažiūrėkite, kaip „Gemini 2.0 Flash Thinking “ pranoksta „Gemini 1.5 Pro“ ir „Gemini 2.0“ matematikos, gamtos mokslų ir multimodalinio mąstymo srityse. Galbūt apskritai jis nėra toks universalus kaip šie du modeliai, tačiau šiose konkrečiose srityse „Gemini 2.0 Flash Thinking “ yra neprilygstamas.

Matematika, gamtos mokslai ir mąstymas

Matematika ir gamtos mokslai

Kritika

2023 m. išleistas pokalbių robotas „Gemini“ turėjo sunkią pradžią. Kūrėjai pernelyg skubėjo išleisti ChatGPT konkurentą. Todėl išleistoje pokalbių roboto versijoje buvo daug klaidų. Vartotojai skundėsi dėl daugybės faktinių klaidų ir netikslumų boto atsakymuose.

Viena iš labiausiai nuskambėjusių buvo nesutarimai dėl paveikslėlių generavimo. Gemini stengėsi pateikti kuo didesnę rasinę įvairovę net ir ten, kur ji buvo netinkama. Pokalbių roboto teigimu, taip 1943 m. atrodė vokiečių kareiviai:

Vokiečių kareiviai 1943 m., sugeneruoti „Gemini“

Taip atrodė XIX a. JAV senatoriai:

XIX a. JAV senatoriai, sugeneruoti pagal Gemini

Dėl naudotojų nepasitenkinimo bendrovės akcijos atpigo 4,5 %, o tai maždaug atitinka 90 mln. dolerių nuostolį. Kūrėjams taip pat teko laikinai blokuoti galimybę generuoti žmonių atvaizdus.

Kilus ginčui dėl atvaizdų generavimo, kai kurie naudotojai pradėjo kaltinti „Gemini“ tekstinius atsakymus šališkumu kairiųjų atžvilgiu. Viename iš tokių pavyzdžių „Gemini“ teigė, kad „sunku galutinai pasakyti“, ar didesnį neigiamą poveikį visuomenei padarė Elonas Muskas, ar nacių diktatorius Adolfas Hitleris. Be to, kiti naudotojai pastebėjo, kad Gemini, atrodo, palankiai vertina kairiųjų pažiūrų politikus ir tokius klausimus kaip teigiami veiksmai ir teisė į abortus, o dešiniųjų veikėjų, mėsos vartojimo ir iškastinio kuro rėmimo nelinkęs palaikyti.

Tačiau reikia pasakyti, kad visi šie sunkumai dažniausiai jau praeityje. Dabar „Gemini“ neturi jokių problemų ir yra vienas sėkmingiausių ir populiariausių pokalbių robotų pasaulyje.