Grįžti į pagrindinį

„Gemini": naujoviškų funkcijų ir modelių apžvalga

„Gemini“ - tai ‚Google‘ sukurta dirbtiniu intelektu pagrįstų pokalbių robotų šeima. Šiuo metu „Gemini“ užima trečią vietą tarp visų pokalbių robotų pagal rinkos dalį, nusileisdama tik „ChatGPT“ ir „Microsoft Copilot“. Kartu „Gemini“ ir toliau auga sparčiau už savo konkurentus ir nuolat populiarėja: pagal naujų naudotojų srautą ji užima 4 vietą, o tarp žinomų pokalbių robotų sparčiau auga tik „Claude“. Šiame straipsnyje apžvelgsime „Gemini“ istoriją, dabartinius modelius, jų funkcijas ir apribojimus.

Trumpa „Google Gemini“ istorija

Bendrovė „Google“ buvo didelių kalbos modelių architektūros pradininkė ir, remdamasi patikimais tyrimais, kuria savo dirbtinio intelekto modelius.

  • 2017: „Google“ tyrėjai pristato transformatoriaus architektūrą, kuri yra daugelio dabartinių didelių kalbos modelių pagrindas.
  • 2020: Įmonė pristato „Meena“ - neuroniniu tinklu pagrįstą pokalbių robotą su 2,6 mlrd. parametrų, kuris, „Google“ teigimu, yra pranašesnis už visus kitus tuo metu egzistuojančius pokalbių robotus.
  • 2021: Meena pervadinama į LaMDA (trumpinys - Language Model for Dialogue Applications), nes padaugėjo duomenų ir kompiuterinės galios.
  • 2022 m.: išleidžiamas naujas kalbos modelis, pavadintas PaLM (Pathways Language Model), turintis pažangesnes galimybes, palyginti su LaMDA.
  • 2023: Pirmąjį metų ketvirtį išleidžiamas pokalbių robotas, pavadintas „Google Bard“, paremtas lengva ir optimizuota LaMDA versija. Tada antrąjį ketvirtį pristatoma PaLM 2, pasižyminti patobulintu kodavimu, daugiakalbėmis galimybėmis ir patobulintais samprotavimo įgūdžiais, kuriuos vėliau perima Bardas. Galiausiai paskutinį ketvirtį „Google“ paskelbė apie „Gemini 1.0“.
  • 2024: „Google“ pervadina „Bard“ į „Gemini“ ir atnaujina daugialypės terpės dirbtinio intelekto modelius iki 1.5 versijos. Gruodžio mėn. pristatomi „Gemini 2.0“ modeliai.

2024 m. balandį „Google DeepMind“ vadovas Demis Hassabis pareiškė, kad laikui bėgant bendrovė dirbtinio intelekto technologijų kūrimui išleis daugiau nei 100 mlrd. dolerių.

Demis Hassabis

Demis Hassabis

„Gemini“ išskirtiniai bruožai
 

Kiekvienas pokalbių robotas turi ribotas žinias apie naujausius įvykius, nes jo mokymo duomenys apima tik ribotą laiko tarpą. Ribinė data pokalbių robotų kontekste reiškia laiko momentą, iki kurio modelis buvo apmokytas pagal duomenis ir gali teikti informaciją. Pavyzdžiui, jei pokalbių roboto ribinė data yra 2023 m. spalis, tai reiškia, kad visos žinios ir duomenys, prie kurių jis turi prieigą, yra aktualūs tik iki tos datos. Bet kokie įvykiai, įvykiai ar pokyčiai, įvykę po šios datos, neatsispindės pokalbių roboto atsakymuose. Šį apribojimą svarbu suprasti naudotojams, nes jis turi įtakos pateikiamos informacijos tikslumui ir aktualumui, ypač sparčiai besikeičiančiose srityse, pavyzdžiui, technologijų, politikos ar aktualijų. Tačiau „Gemini“ gali apeiti šį apribojimą, pasiekdamas ir apdorodamas informaciją iš internetinių paieškų per „Google Search“, todėl pateikia aktualesnius atsakymus.
 

Todėl naudotojams gali tekti patikrinti informaciją iš naujesnių šaltinių, jei jie ieško naujausių atnaujinimų ar įžvalgų. Kartais „Gemini“ rodo šaltinius ir susijusį turinį savo atsakyme ir po juo. Tai apima interneto šaltinius su panašia informacija ir nuorodomis, kad galėtumėte gilintis. Programa „Gemini“ sukurta taip, kad kurtų originalų turinį, tačiau jei ji tiesiogiai ir išsamiai cituoja interneto puslapį, pamatysite citatos ženklą su nurodytu šaltiniu ir nuorodą į tą puslapį. Šaltiniai ir susijęs turinys gali apimti interneto svetaines, kurias „Gemini“ citavo arba kurios susijusios su jo atsakymo dalimis. Jei „Gemini“ atsakyme pateikiama paveikslėlio iš interneto miniatiūra, bus rodomas šaltinis ir pateikiama tiesioginė nuoroda į jį.

„Gemini“ rodo Niujorko nuotraukas

Gemini was designed multimodal from the get-go, meaning it was trained on multiple data types, and now it can seamlessly work with different types of content. As you can see on the picture above, the bot can include images in its responses. Gemini can understand text, audio, video fragments, handwritten notes, graphs, diagrams, can identify objects on photos, and on top of that can generate images using Imagen 3, Google’s most advanced text-to-image model.

The chatbot also has broad multilingual capabilities as it is available in 46 different languages.

Dabartiniai modeliai, jų privalumai ir galimybės

„Gemini“ siūlo skirtingus modelius, optimizuotus konkretiems naudojimo atvejams. Pateikiame trumpą galimų variantų apžvalgą:

ModelisĮvestisIšėjimasAprašymas

Gemini 2.0 Flash

Garso įrašai, vaizdai, vaizdo įrašai ir tekstasTekstas, vaizdai (netrukus) ir garsas (netrukus)Naujos kartos funkcijos, greitis ir daugiamodalinis generavimas įvairioms užduotims atlikti

Gemini 2.0 Flash Thinking

Tekstas, vaizdaiTekstasPatobulintas mąstymo modelis, kuris puikiai tinka gamtos mokslams ir matematikai

Gemini 1.5 Flash

Garso įrašai, vaizdai, vaizdo įrašai ir tekstasTekstasGreitas ir universalus veikimas atliekant įvairias užduotis

Gemini 1.5 Flash-8B

Garso įrašai, vaizdai, vaizdo įrašai ir tekstasTekstasDidelės apimties ir mažesnio intelekto užduotys

Gemini 1.5 Pro

Garso įrašai, vaizdai, vaizdo įrašai ir tekstasTekstasSudėtingos samprotavimo užduotys, kurioms reikia daugiau intelekto

„Gemini 1.5 Flash“ turi 1 mln. tokenų konteksto langą, o „Gemini 1.5 Pro“ - 2 mln. tokenų konteksto langą, kuris yra ilgiausias iš visų didžiųjų kalbų modelių.

Vienas tokenas atitinka maždaug 4 „Gemini“ modelių simbolius. 100 tokenų yra maždaug 60-80 angliškų žodžių.

Praktiškai 1 milijonas tokenų atrodytų taip:

  • 50 000 kodo eilučių (su standartiniais 80 simbolių vienoje eilutėje).
  • Daugiau nei 200 vidutinio ilgio podkasto epizodų transkripcijos.
  • 8 vidutinio ilgio angliški romanai.
  • Visos tekstinės žinutės, kurias išsiuntėte per pastaruosius 5 metus.

Gemini 1.5 Flash and Flash-8B

Įvesties tokenų riba1,048,576
Išvesties tokenų riba8,192
Didžiausias vaizdų skaičius3,600
Didžiausias vaizdo įrašo ilgis1 val.
Didžiausias garso įrašo ilgisMaždaug 9,5 valandos

„Gemini 1.5 Pro“ pasiekia beveik tobulą ilgo konteksto paieškos užduočių atgaminimą įvairiose modalumo srityse, todėl galite tiksliai apdoroti ilgus dokumentus, tūkstančius kodo eilučių, valandų valandas garso ir vaizdo įrašų ir kt.

Gemini 1.5 Pro

Įvesties tokenų riba2,097,152
Išvesties tokenų riba8,192
Didžiausias vaizdų skaičius7,200
Didžiausias vaizdo įrašo ilgis2 valandos
Didžiausias garso įrašo ilgisMaždaug 19 valandų

Kiekvienas vaizdas atitinka 258 tokenus. Palaikomi vaizdų tipai:

  • PNG
  • WEBP
  • JPEG
  • HEIC
  • HEIF

Nors, be modelio kontekstinio lango, nėra jokių konkrečių apribojimų dėl vaizdo pikselių skaičiaus, didesni vaizdai yra sumažinami iki didžiausios 3072x3072 skiriamosios gebos, išsaugant jų pradinį kraštinių santykį, o mažesni vaizdai sumažinami iki 768x768 pikselių.

Regėjimo galimybės:

  • Parašykite antraštes ir atsakykite į klausimus apie vaizdus.
  • Perrašykite ir pagrįskite PDF dokumentus, įskaitant ilgus dokumentus iki 2 mln. tokenų kontekstiniame lange.
  • Aprašykite, segmentuokite ir išgaukite informaciją iš vaizdo įrašų, įskaitant iki 90 minučių trukmės vaizdo ir garso kadrus.
„Gemini“ sugeba teisingai atpažinti visą ranka rašytą turinį ir patikrinti pagrindimą.

„Gemini“ sugeba teisingai atpažinti visą ranka rašytą turinį ir patikrinti pagrindimą.

„Gemini“ garso galimybes:

  • Aprašykite, apibendrinkite arba atsakykite į klausimus apie garso turinį.
  • Pateikite garso įrašo transkripciją.
  • Pateikti atsakymus arba transkripciją apie konkretų garso įrašo segmentą.

Palaikomi garso formatai:

  • WAV
  • MP3
  • FLAC
  • OGG Vorbis
  • AIFF
  • AAC

Kiekviena garso įrašo sekundė atitinka 25 tokenus; pavyzdžiui, viena garso įrašo minutė yra 1 500 tokenų.

Gemini 2.0 Flash

Įvesties tokenų riba1,048,576
Išvesties tokenų riba8,192

„Gemini 2.0 Flash“ yra galingiausias ir universaliausias „Gemini“ šeimos modelis. Jis gali natūraliai kurti vaizdus ir generuoti kalbą, o pagal našumą lenkia kitus modelius beveik visuose pagrindiniuose lyginamuosiuose rodikliuose. Įsitikinkite patys.

GebėjimaiLyginamasis standartasAprašymasGemini 1.5 FlashGemini 1.5 ProGemini 2.0 Flash
BendraMMLU-ProVertina, kaip gerai mašininio mokymosi modeliai supranta natūralią kalbą67.3%75.8%76.4%
KodasNatural2Code„Python“, ‚Java‘, ‚C++‘, ‚JS‘, ‚Go‘ kodų generavimas79.8%85.4%92.9%
KodasBird-SQL (Dev)Vertinamas natūralios kalbos klausimų konvertavimas į vykdytiną SQL45.6%54.4%56.9%
FaktiškumasFACTS GroundingGebėjimas pateikti faktiškai teisingus atsakymus į pateiktus dokumentus ir įvairias naudotojų užklausas82.9%80.0%83.6%
MatematikaMATHSudėtingi matematikos uždaviniai (įskaitant algebrą, geometriją, ikiskaičiavimą ir kt.)77.9%86.5%89.7%
MatematikaHiddenMathKonkurso lygio matematikos uždaviniai47.2%52.0%63.0%
ArgumentavimasGPQA (diamond)Sudėtingas duomenų rinkinys, sudarytas iš klausimų, kuriuos parašė biologijos, fizikos ir chemijos sričių ekspertai51.0%59.1%62.1%
VaizdasMMMUDaugiadisciplininės kolegijos lygio daugiamodalės supratimo ir samprotavimo problemos62.3%65.9%70.7%
GarsoCoVoST2 (21 lang)Automatinis kalbos vertimas37.440.139.2
Vaizdo įrašasEgoSchema (test)Vaizdo įrašų analizė66.8%71.2%71.5%

„Gemini 2.0 Flash Thinking“ suderina greitį ir našumą, pademonstruodamas puikią patirtį sprendžiant sudėtingas matematikos ir gamtos mokslų problemas. Vieno milijono tokenų kontekstinis langas leidžia giliau analizuoti ilgos formos tekstą. Patobulintas mąstymas užtikrina didesnį minčių ir atsakymų nuoseklumą.

Gemini 2.0 Flash Thinking

Įvesties tokenų riba1,048,576
Išvesties tokenų riba65,536

Atkreipkite dėmesį į didžiulį išvesties tokenų langą. Jis leidžia modeliui ne tik apdoroti ilgas užklausas, bet ir pateikti išsamius atsakymus, kurie gali praversti, pavyzdžiui, generuojant dideles kodo dalis.

Pažiūrėkite, kaip „Gemini 2.0 Flash Thinking “ pranoksta „Gemini 1.5 Pro“ ir „Gemini 2.0“ matematikos, gamtos mokslų ir multimodalinio mąstymo srityse. Galbūt apskritai jis nėra toks universalus kaip šie du modeliai, tačiau šiose konkrečiose srityse „Gemini 2.0 Flash Thinking “ yra neprilygstamas.

Matematika, gamtos mokslai ir mąstymas

Matematika, gamtos mokslai ir mąstymas

Matematika ir gamtos mokslai

Matematika ir gamtos mokslai

Kritika

2023 m. išleistas pokalbių robotas „Gemini“ turėjo sunkią pradžią. Kūrėjai pernelyg skubėjo išleisti ChatGPT konkurentą. Todėl išleistoje pokalbių roboto versijoje buvo daug klaidų. Vartotojai skundėsi dėl daugybės faktinių klaidų ir netikslumų boto atsakymuose.

Viena iš labiausiai nuskambėjusių buvo nesutarimai dėl paveikslėlių generavimo. Gemini stengėsi pateikti kuo didesnę rasinę įvairovę net ir ten, kur ji buvo netinkama. Pokalbių roboto teigimu, taip 1943 m. atrodė vokiečių kareiviai:

Vokiečių kareiviai 1943 m., sugeneruoti „Gemini“

Taip atrodė XIX a. JAV senatoriai:

XIX a. JAV senatoriai, sugeneruoti pagal Gemini

Dėl naudotojų nepasitenkinimo bendrovės akcijos atpigo 4,5 %, o tai maždaug atitinka 90 mln. dolerių nuostolį. Kūrėjams taip pat teko laikinai blokuoti galimybę generuoti žmonių atvaizdus.

Kilus ginčui dėl atvaizdų generavimo, kai kurie naudotojai pradėjo kaltinti „Gemini“ tekstinius atsakymus šališkumu kairiųjų atžvilgiu. Viename iš tokių pavyzdžių „Gemini“ teigė, kad „sunku galutinai pasakyti“, ar didesnį neigiamą poveikį visuomenei padarė Elonas Muskas, ar nacių diktatorius Adolfas Hitleris. Be to, kiti naudotojai pastebėjo, kad Gemini, atrodo, palankiai vertina kairiųjų pažiūrų politikus ir tokius klausimus kaip teigiami veiksmai ir teisė į abortus, o dešiniųjų veikėjų, mėsos vartojimo ir iškastinio kuro rėmimo nelinkęs palaikyti.

Tačiau reikia pasakyti, kad visi šie sunkumai dažniausiai jau praeityje. Dabar „Gemini“ neturi jokių problemų ir yra vienas sėkmingiausių ir populiariausių pokalbių robotų pasaulyje.