„Gemini": naujoviškų funkcijų ir modelių apžvalga
„Gemini“ - tai ‚Google‘ sukurta dirbtiniu intelektu pagrįstų pokalbių robotų šeima. Šiuo metu „Gemini“ užima trečią vietą tarp visų pokalbių robotų pagal rinkos dalį, nusileisdama tik „ChatGPT“ ir „Microsoft Copilot“. Kartu „Gemini“ ir toliau auga sparčiau už savo konkurentus ir nuolat populiarėja: pagal naujų naudotojų srautą ji užima 4 vietą, o tarp žinomų pokalbių robotų sparčiau auga tik „Claude“. Šiame straipsnyje apžvelgsime „Gemini“ istoriją, dabartinius modelius, jų funkcijas ir apribojimus.
Trumpa „Google Gemini“ istorija
Bendrovė „Google“ buvo didelių kalbos modelių architektūros pradininkė ir, remdamasi patikimais tyrimais, kuria savo dirbtinio intelekto modelius.
- 2017: „Google“ tyrėjai pristato transformatoriaus architektūrą, kuri yra daugelio dabartinių didelių kalbos modelių pagrindas.
- 2020: Įmonė pristato „Meena“ - neuroniniu tinklu pagrįstą pokalbių robotą su 2,6 mlrd. parametrų, kuris, „Google“ teigimu, yra pranašesnis už visus kitus tuo metu egzistuojančius pokalbių robotus.
- 2021: Meena pervadinama į LaMDA (trumpinys - Language Model for Dialogue Applications), nes padaugėjo duomenų ir kompiuterinės galios.
- 2022 m.: išleidžiamas naujas kalbos modelis, pavadintas PaLM (Pathways Language Model), turintis pažangesnes galimybes, palyginti su LaMDA.
- 2023: Pirmąjį metų ketvirtį išleidžiamas pokalbių robotas, pavadintas „Google Bard“, paremtas lengva ir optimizuota LaMDA versija. Tada antrąjį ketvirtį pristatoma PaLM 2, pasižyminti patobulintu kodavimu, daugiakalbėmis galimybėmis ir patobulintais samprotavimo įgūdžiais, kuriuos vėliau perima Bardas. Galiausiai paskutinį ketvirtį „Google“ paskelbė apie „Gemini 1.0“.
- 2024: „Google“ pervadina „Bard“ į „Gemini“ ir atnaujina daugialypės terpės dirbtinio intelekto modelius iki 1.5 versijos. Gruodžio mėn. pristatomi „Gemini 2.0“ modeliai.
2024 m. balandį „Google DeepMind“ vadovas Demis Hassabis pareiškė, kad laikui bėgant bendrovė dirbtinio intelekto technologijų kūrimui išleis daugiau nei 100 mlrd. dolerių.

Demis Hassabis
„Gemini“ išskirtiniai bruožai
Kiekvienas pokalbių robotas turi ribotas žinias apie naujausius įvykius, nes jo mokymo duomenys apima tik ribotą laiko tarpą. Ribinė data pokalbių robotų kontekste reiškia laiko momentą, iki kurio modelis buvo apmokytas pagal duomenis ir gali teikti informaciją. Pavyzdžiui, jei pokalbių roboto ribinė data yra 2023 m. spalis, tai reiškia, kad visos žinios ir duomenys, prie kurių jis turi prieigą, yra aktualūs tik iki tos datos. Bet kokie įvykiai, įvykiai ar pokyčiai, įvykę po šios datos, neatsispindės pokalbių roboto atsakymuose. Šį apribojimą svarbu suprasti naudotojams, nes jis turi įtakos pateikiamos informacijos tikslumui ir aktualumui, ypač sparčiai besikeičiančiose srityse, pavyzdžiui, technologijų, politikos ar aktualijų. Tačiau „Gemini“ gali apeiti šį apribojimą, pasiekdamas ir apdorodamas informaciją iš internetinių paieškų per „Google Search“, todėl pateikia aktualesnius atsakymus.
Todėl naudotojams gali tekti patikrinti informaciją iš naujesnių šaltinių, jei jie ieško naujausių atnaujinimų ar įžvalgų. Kartais „Gemini“ rodo šaltinius ir susijusį turinį savo atsakyme ir po juo. Tai apima interneto šaltinius su panašia informacija ir nuorodomis, kad galėtumėte gilintis. Programa „Gemini“ sukurta taip, kad kurtų originalų turinį, tačiau jei ji tiesiogiai ir išsamiai cituoja interneto puslapį, pamatysite citatos ženklą su nurodytu šaltiniu ir nuorodą į tą puslapį. Šaltiniai ir susijęs turinys gali apimti interneto svetaines, kurias „Gemini“ citavo arba kurios susijusios su jo atsakymo dalimis. Jei „Gemini“ atsakyme pateikiama paveikslėlio iš interneto miniatiūra, bus rodomas šaltinis ir pateikiama tiesioginė nuoroda į jį.

Gemini was designed multimodal from the get-go, meaning it was trained on multiple data types, and now it can seamlessly work with different types of content. As you can see on the picture above, the bot can include images in its responses. Gemini can understand text, audio, video fragments, handwritten notes, graphs, diagrams, can identify objects on photos, and on top of that can generate images using Imagen 3, Google’s most advanced text-to-image model.
The chatbot also has broad multilingual capabilities as it is available in 46 different languages.
Dabartiniai modeliai, jų privalumai ir galimybės
„Gemini“ siūlo skirtingus modelius, optimizuotus konkretiems naudojimo atvejams. Pateikiame trumpą galimų variantų apžvalgą:
| Modelis | Įvestis | Išėjimas | Aprašymas |
Gemini 2.0 Flash | Garso įrašai, vaizdai, vaizdo įrašai ir tekstas | Tekstas, vaizdai (netrukus) ir garsas (netrukus) | Naujos kartos funkcijos, greitis ir daugiamodalinis generavimas įvairioms užduotims atlikti |
Gemini 2.0 Flash Thinking | Tekstas, vaizdai | Tekstas | Patobulintas mąstymo modelis, kuris puikiai tinka gamtos mokslams ir matematikai |
Gemini 1.5 Flash | Garso įrašai, vaizdai, vaizdo įrašai ir tekstas | Tekstas | Greitas ir universalus veikimas atliekant įvairias užduotis |
Gemini 1.5 Flash-8B | Garso įrašai, vaizdai, vaizdo įrašai ir tekstas | Tekstas | Didelės apimties ir mažesnio intelekto užduotys |
Gemini 1.5 Pro | Garso įrašai, vaizdai, vaizdo įrašai ir tekstas | Tekstas | Sudėtingos samprotavimo užduotys, kurioms reikia daugiau intelekto |
„Gemini 1.5 Flash“ turi 1 mln. tokenų konteksto langą, o „Gemini 1.5 Pro“ - 2 mln. tokenų konteksto langą, kuris yra ilgiausias iš visų didžiųjų kalbų modelių.
Vienas tokenas atitinka maždaug 4 „Gemini“ modelių simbolius. 100 tokenų yra maždaug 60-80 angliškų žodžių.
Praktiškai 1 milijonas tokenų atrodytų taip:
- 50 000 kodo eilučių (su standartiniais 80 simbolių vienoje eilutėje).
- Daugiau nei 200 vidutinio ilgio podkasto epizodų transkripcijos.
- 8 vidutinio ilgio angliški romanai.
- Visos tekstinės žinutės, kurias išsiuntėte per pastaruosius 5 metus.
Gemini 1.5 Flash and Flash-8B | |
| Įvesties tokenų riba | 1,048,576 |
| Išvesties tokenų riba | 8,192 |
| Didžiausias vaizdų skaičius | 3,600 |
| Didžiausias vaizdo įrašo ilgis | 1 val. |
| Didžiausias garso įrašo ilgis | Maždaug 9,5 valandos |
„Gemini 1.5 Pro“ pasiekia beveik tobulą ilgo konteksto paieškos užduočių atgaminimą įvairiose modalumo srityse, todėl galite tiksliai apdoroti ilgus dokumentus, tūkstančius kodo eilučių, valandų valandas garso ir vaizdo įrašų ir kt.
Gemini 1.5 Pro | |
| Įvesties tokenų riba | 2,097,152 |
| Išvesties tokenų riba | 8,192 |
| Didžiausias vaizdų skaičius | 7,200 |
| Didžiausias vaizdo įrašo ilgis | 2 valandos |
| Didžiausias garso įrašo ilgis | Maždaug 19 valandų |
Kiekvienas vaizdas atitinka 258 tokenus. Palaikomi vaizdų tipai:
- PNG
- WEBP
- JPEG
- HEIC
- HEIF
Nors, be modelio kontekstinio lango, nėra jokių konkrečių apribojimų dėl vaizdo pikselių skaičiaus, didesni vaizdai yra sumažinami iki didžiausios 3072x3072 skiriamosios gebos, išsaugant jų pradinį kraštinių santykį, o mažesni vaizdai sumažinami iki 768x768 pikselių.
Regėjimo galimybės:
- Parašykite antraštes ir atsakykite į klausimus apie vaizdus.
- Perrašykite ir pagrįskite PDF dokumentus, įskaitant ilgus dokumentus iki 2 mln. tokenų kontekstiniame lange.
- Aprašykite, segmentuokite ir išgaukite informaciją iš vaizdo įrašų, įskaitant iki 90 minučių trukmės vaizdo ir garso kadrus.

„Gemini“ sugeba teisingai atpažinti visą ranka rašytą turinį ir patikrinti pagrindimą.
„Gemini“ garso galimybes:
- Aprašykite, apibendrinkite arba atsakykite į klausimus apie garso turinį.
- Pateikite garso įrašo transkripciją.
- Pateikti atsakymus arba transkripciją apie konkretų garso įrašo segmentą.
Palaikomi garso formatai:
- WAV
- MP3
- FLAC
- OGG Vorbis
- AIFF
- AAC
Kiekviena garso įrašo sekundė atitinka 25 tokenus; pavyzdžiui, viena garso įrašo minutė yra 1 500 tokenų.
Gemini 2.0 Flash | |
| Įvesties tokenų riba | 1,048,576 |
| Išvesties tokenų riba | 8,192 |
„Gemini 2.0 Flash“ yra galingiausias ir universaliausias „Gemini“ šeimos modelis. Jis gali natūraliai kurti vaizdus ir generuoti kalbą, o pagal našumą lenkia kitus modelius beveik visuose pagrindiniuose lyginamuosiuose rodikliuose. Įsitikinkite patys.
| Gebėjimai | Lyginamasis standartas | Aprašymas | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 2.0 Flash |
| Bendra | MMLU-Pro | Vertina, kaip gerai mašininio mokymosi modeliai supranta natūralią kalbą | 67.3% | 75.8% | 76.4% |
| Kodas | Natural2Code | „Python“, ‚Java‘, ‚C++‘, ‚JS‘, ‚Go‘ kodų generavimas | 79.8% | 85.4% | 92.9% |
| Kodas | Bird-SQL (Dev) | Vertinamas natūralios kalbos klausimų konvertavimas į vykdytiną SQL | 45.6% | 54.4% | 56.9% |
| Faktiškumas | FACTS Grounding | Gebėjimas pateikti faktiškai teisingus atsakymus į pateiktus dokumentus ir įvairias naudotojų užklausas | 82.9% | 80.0% | 83.6% |
| Matematika | MATH | Sudėtingi matematikos uždaviniai (įskaitant algebrą, geometriją, ikiskaičiavimą ir kt.) | 77.9% | 86.5% | 89.7% |
| Matematika | HiddenMath | Konkurso lygio matematikos uždaviniai | 47.2% | 52.0% | 63.0% |
| Argumentavimas | GPQA (diamond) | Sudėtingas duomenų rinkinys, sudarytas iš klausimų, kuriuos parašė biologijos, fizikos ir chemijos sričių ekspertai | 51.0% | 59.1% | 62.1% |
| Vaizdas | MMMU | Daugiadisciplininės kolegijos lygio daugiamodalės supratimo ir samprotavimo problemos | 62.3% | 65.9% | 70.7% |
| Garso | CoVoST2 (21 lang) | Automatinis kalbos vertimas | 37.4 | 40.1 | 39.2 |
| Vaizdo įrašas | EgoSchema (test) | Vaizdo įrašų analizė | 66.8% | 71.2% | 71.5% |
„Gemini 2.0 Flash Thinking“ suderina greitį ir našumą, pademonstruodamas puikią patirtį sprendžiant sudėtingas matematikos ir gamtos mokslų problemas. Vieno milijono tokenų kontekstinis langas leidžia giliau analizuoti ilgos formos tekstą. Patobulintas mąstymas užtikrina didesnį minčių ir atsakymų nuoseklumą.
Gemini 2.0 Flash Thinking | |
| Įvesties tokenų riba | 1,048,576 |
| Išvesties tokenų riba | 65,536 |
Atkreipkite dėmesį į didžiulį išvesties tokenų langą. Jis leidžia modeliui ne tik apdoroti ilgas užklausas, bet ir pateikti išsamius atsakymus, kurie gali praversti, pavyzdžiui, generuojant dideles kodo dalis.
Pažiūrėkite, kaip „Gemini 2.0 Flash Thinking “ pranoksta „Gemini 1.5 Pro“ ir „Gemini 2.0“ matematikos, gamtos mokslų ir multimodalinio mąstymo srityse. Galbūt apskritai jis nėra toks universalus kaip šie du modeliai, tačiau šiose konkrečiose srityse „Gemini 2.0 Flash Thinking “ yra neprilygstamas.

Matematika, gamtos mokslai ir mąstymas

Matematika ir gamtos mokslai
Kritika
2023 m. išleistas pokalbių robotas „Gemini“ turėjo sunkią pradžią. Kūrėjai pernelyg skubėjo išleisti ChatGPT konkurentą. Todėl išleistoje pokalbių roboto versijoje buvo daug klaidų. Vartotojai skundėsi dėl daugybės faktinių klaidų ir netikslumų boto atsakymuose.
Viena iš labiausiai nuskambėjusių buvo nesutarimai dėl paveikslėlių generavimo. Gemini stengėsi pateikti kuo didesnę rasinę įvairovę net ir ten, kur ji buvo netinkama. Pokalbių roboto teigimu, taip 1943 m. atrodė vokiečių kareiviai:

Taip atrodė XIX a. JAV senatoriai:

Dėl naudotojų nepasitenkinimo bendrovės akcijos atpigo 4,5 %, o tai maždaug atitinka 90 mln. dolerių nuostolį. Kūrėjams taip pat teko laikinai blokuoti galimybę generuoti žmonių atvaizdus.
Kilus ginčui dėl atvaizdų generavimo, kai kurie naudotojai pradėjo kaltinti „Gemini“ tekstinius atsakymus šališkumu kairiųjų atžvilgiu. Viename iš tokių pavyzdžių „Gemini“ teigė, kad „sunku galutinai pasakyti“, ar didesnį neigiamą poveikį visuomenei padarė Elonas Muskas, ar nacių diktatorius Adolfas Hitleris. Be to, kiti naudotojai pastebėjo, kad Gemini, atrodo, palankiai vertina kairiųjų pažiūrų politikus ir tokius klausimus kaip teigiami veiksmai ir teisė į abortus, o dešiniųjų veikėjų, mėsos vartojimo ir iškastinio kuro rėmimo nelinkęs palaikyti.
Tačiau reikia pasakyti, kad visi šie sunkumai dažniausiai jau praeityje. Dabar „Gemini“ neturi jokių problemų ir yra vienas sėkmingiausių ir populiariausių pokalbių robotų pasaulyje.