Späť na hlavnú stránku

Gemini: prehľad inovatívnych funkcií a modelov

Gemini je rodina chatbotov založená na umelej inteligencii, ktorú vyvinula spoločnosť Google. V súčasnosti je Gemini na treťom mieste medzi všetkými chatbotmi, pokiaľ ide o podiel na trhu, za ChatGPT a Microsoft Copilot. Gemini zároveň naďalej rastie rýchlejšie ako jeho konkurenti a neustále získava na popularite: z hľadiska prílevu nových používateľov mu patrí 4. miesto, pričom spomedzi známych chatbotov rastie rýchlejšie len Claude. V tomto článku sa pozrieme na históriu Gemini, súčasné modely, ich funkcie a obmedzenia.

Stručná história Google Gemini

Spoločnosť Google je priekopníkom v oblasti architektúry veľkých jazykových modelov a pri vývoji vlastných modelov umelej inteligencie vychádza zo svojho robustného výskumu.

  • 2017: Výskumníci spoločnosti Google predstavujú architektúru transformátora, ktorá je základom mnohých dnešných veľkých jazykových modelov.
  • 2020: Spoločnosť uvádza Meenu, chatbota založeného na neurónovej sieti s 2,6 miliardami parametrov, o ktorom spoločnosť Google tvrdí, že prekonáva všetky ostatné v tom čase existujúce chatboty.
  • 2021: Meena sa premenúva na LaMDA (skratka pre Language Model for Dialogue Applications), pretože sa zvýšil jej dátový a výpočtový výkon.
  • 2022: Vydáva sa nový jazykový model s názvom PaLM (Pathways Language Model), ktorý má v porovnaní s modelom LaMDA pokročilejšie možnosti.
  • 2023: V prvom štvrťroku tohto roka je vydaný chatbot s názvom Google Bard, ktorý je podporovaný odľahčenou a optimalizovanou verziou LaMDA. Potom v druhom štvrťroku predstavili PaLM 2, ktorý obsahuje vylepšené kódovanie, viacjazyčné schopnosti a rozšírené schopnosti uvažovania, ktoré potom Bard prijal. Nakoniec v poslednom štvrťroku spoločnosť Google oznámila verziu Gemini 1.0.
  • 2024: Spoločnosť Google premenúva Bard na Gemini a aktualizuje svoje multimodálne modely umelej inteligencie na verziu 1.5. V decembri sú predstavené modely Gemini 2.0.

V apríli 2024 generálny riaditeľ spoločnosti Google DeepMind Demis Hassabis uviedol, že spoločnosť časom vynaloží na vývoj technológií umelej inteligencie viac ako 100 miliárd dolárov.

Demis Hassabis

Demis Hassabis

Charakteristické črty Blížencov
 

Každý chatbot má obmedzené znalosti o nedávnych udalostiach, pretože jeho tréningové údaje zahŕňajú len obmedzené časové obdobie. Hraničný dátum v kontexte chatbotov označuje časový bod, do ktorého bol model vycvičený na údajoch a môže poskytovať informácie. Ak má chatbot napríklad hraničný dátum október 2023, znamená to, že všetky znalosti a údaje, ku ktorým má prístup, sú aktuálne len do tohto dátumu. Akékoľvek udalosti, vývoj alebo zmeny, ktoré nastali po tomto dátume, sa v odpovediach chatbota neprejavia. Toto obmedzenie je dôležité, aby používatelia pochopili, pretože ovplyvňuje presnosť a relevantnosť poskytovaných informácií, najmä v rýchlo sa meniacich oblastiach, ako sú technológie, politika alebo aktuálne udalosti. Gemini však dokáže toto obmedzenie obísť tým, že pristupuje k informáciám z online vyhľadávania prostredníctvom vyhľadávača Google a spracúva ich, čím poskytuje aktuálnejšie odpovede.
 

Následne si používatelia môžu potrebovať overiť informácie z novších zdrojov, ak hľadajú najnovšie aktualizácie alebo poznatky. Niekedy Gemini zobrazuje zdroje a súvisiaci obsah v rámci svojej odpovede a pod ňou. Tie zahŕňajú webové zdroje s podobnými informáciami a odkazy, aby ste sa mohli dopátrať hlbšie. Gemini je navrhnutý tak, aby vytváral originálny obsah, ale ak priamo dlhšie cituje z webovej stránky, zobrazí sa citát s citovaným zdrojom a odkaz na túto stránku. Zdroje a súvisiaci obsah môžu zahŕňať webové stránky, ktoré Gemini citoval alebo ktoré sa týkajú častí jeho odpovede. Ak odpoveď spoločnosti Gemini obsahuje miniatúru obrázka z webu, zobrazí sa zdroj a uvedie sa odkaz priamo naň.

Gemini ukazuje obrázky New Yorku

Gemini bol od začiatku navrhnutý multimodálne, čo znamená, že bol vycvičený na viacerých typoch údajov a teraz dokáže bezproblémovo pracovať s rôznymi typmi obsahu. Ako môžete vidieť na obrázku vyššie, bot môže do svojich odpovedí zahrnúť obrázky. Gemini dokáže porozumieť textu, zvuku, fragmentom videa, ručne písaným poznámkam, grafom, diagramom, dokáže identifikovať objekty na fotografiách a navyše dokáže vytvárať obrázky pomocou Imagenu 3, najpokročilejšieho modelu spoločnosti Google na prevod textu na obrázok.

Chatbot má tiež široké viacjazyčné možnosti, pretože je k dispozícii v 46 rôznych jazykoch.

Súčasné modely, ich silné stránky a možnosti

Gemini ponúka rôzne modely, ktoré sú optimalizované pre konkrétne prípady použitia. Tu je stručný prehľad dostupných variantov:

Model

VstupVýstupPopis

Gemini 2.0 Flash

Zvuk, obrázky, videá a textText, obrázky (čoskoro) a zvuk (čoskoro)Funkcie novej generácie, rýchlosť a multimodálne generovanie pre rôzne úlohy

Gemini 2.0 Flash Thinking

Text, obrázky

Text

Vylepšený model uvažovania, ktorý vyniká vo vede a matematike

Gemini 1.5 Flash

Zvuk, obrázky, videá a text

Text

Rýchly a všestranný výkon pri rôznych úlohách

Gemini 1.5 Flash-8B

Zvuk, obrázky, videá a text

Text

Úlohy s vysokým objemom a nižšou inteligenciou

Gemini 1.5 Pro

Zvuk, obrázky, videá a text

Text

Komplexné rozumové úlohy vyžadujúce viac inteligencie

Gemini 1.5 Flash sa dodáva s kontextovým oknom s 1 miliónom tokenov a Gemini 1.5 Pro sa dodáva s kontextovým oknom s 2 miliónmi tokenov, čo je najdlhšie zo všetkých veľkých jazykových modelov.

Jeden token zodpovedá približne 4 znakom pre modely Gemini. 100 tokenov predstavuje približne 60-80 anglických slov.

V praxi by 1 milión tokenov vyzeral takto:

  • 50 000 riadkov kódu (so štandardnými 80 znakmi na riadok).
  • Prepisy viac ako 200 priemerne dlhých epizód podcastu.
  • 8 priemerne dlhých anglických románov.
  • Všetky textové správy, ktoré ste poslali za posledných 5 rokov.

Gemini 1.5 Flash and Flash-8B

Limit vstupných tokenov1,048,576
Limit výstupných tokenov8,192
Maximálny počet obrázkov3,600
Maximálna dĺžka videa1 hodina
Maximálna dĺžka zvukuPribližne 9,5 hodiny

Gemini 1.5 Pro dosahuje takmer dokonalú pamäť pri úlohách vyhľadávania dlhých kontextov v rôznych modalitách, čím odomyká schopnosť presne spracovať dlhé dokumenty, tisíce riadkov kódu, hodiny zvuku, videa a ďalšie.

Gemini 1.5 Pro

Limit vstupných tokenov2,097,152
Limit výstupných tokenov8,192
Maximálny počet obrázkov7,200
Maximálna dĺžka videa2 hodiny
Maximálna dĺžka zvukuPribližne 19 hodín

Každý obrázok zodpovedá 258 tokenom. Podporované typy obrázkov:

  • PNG
  • WEBP
  • JPEG
  • HEIC
  • HEIF

Hoci okrem kontextového okna modelu neexistujú žiadne konkrétne obmedzenia počtu pixelov v obrázku, väčšie obrázky sú zmenšené na maximálne rozlíšenie 3072x3072 pri zachovaní pôvodného pomeru strán, zatiaľ čo menšie obrázky sú zmenšené na 768x768 pixelov.

Schopnosti videnia:

  • Podpisujte a odpovedajte na otázky o obrázkoch.
  • Prepisujte a zdôvodňujte súbory PDF vrátane dlhých dokumentov s kontextovým oknom až do 2 miliónov tokenov.
  • Popisovať, segmentovať a extrahovať informácie z videí vrátane vizuálnych snímok aj zvuku s dĺžkou až 90 minút.
Gemini dokáže správne rozpoznať celý ručne písaný obsah a overiť jeho odôvodnenie.

Gemini dokáže správne rozpoznať celý ručne písaný obsah a overiť jeho odôvodnenie.

Zvukové možnosti Gemini:

  • Popíšte, zhrňte alebo odpovedzte na otázky týkajúce sa zvukového obsahu.
  • Poskytnite prepis zvukového záznamu.
  • Poskytnúť odpovede alebo prepis o konkrétnom segmente zvukového záznamu.

Podporované formáty zvuku:

  • WAV
  • MP3
  • FLAC
  • OGG Vorbis
  • AIFF
  • AAC

Každá sekunda zvuku zodpovedá 25 tokenom; napríklad jedna minúta zvuku predstavuje 1 500 tokenov.

Gemini 2.0 Flash

Limit vstupných tokenov1,048,576
Limit výstupných tokenov8,192

Gemini 2.0 Flash je najvýkonnejší a najvšestrannejší model z rodiny Gemini. Dokáže natívne vytvárať obrázky a generovať reč, a pokiaľ ide o výkon, prekonáva ostatné modely takmer vo všetkých kľúčových porovnávacích testoch. Presvedčte sa sami.

SchopnostiReferenčná hodnotaPopisGemini 1.5 FlashGemini 1.5 ProGemini 2.0 Flash
VšeobecnéMMLU-ProHodnotí, ako dobre modely strojového učenia rozumejú prirodzenému jazyku67.3%75.8%76.4%
KódNatural2CodeGenerovanie kódu v jazykoch Python, Java, C++, JS, Go79.8%85.4%92.9%
KódBird-SQL (Dev)Vyhodnocuje prevod otázok v prirodzenom jazyku na spustiteľný jazyk SQL45.6%54.4%56.9%
SkutočnosťFACTS GroundingSchopnosť poskytovať vecne správne odpovede vzhľadom na dokumenty a rôzne požiadavky používateľov82.9%80.0%83.6%
MatematikaMATHNáročné matematické úlohy (vrátane algebry, geometrie, predpočítavania a ďalších)77.9%86.5%89.7%
MatematikaHiddenMathMatematické úlohy na úrovni súťaže47.2%52.0%63.0%
ZdôvodnenieGPQA (diamond)Náročný súbor údajov s otázkami, ktoré napísali odborníci z oblasti biológie, fyziky a chémie51.0%59.1%62.1%
ObrázokMMMUMultidisciplinárne problémy multimodálneho porozumenia a uvažovania na vysokoškolskej úrovni62.3%65.9%70.7%
ZvukCoVoST2 (21 lang)Automatický preklad reči37.440.139.2
VideoEgoSchema (test)Analýza videa66.8%71.2%71.5%

Gemini 2.0 Flash Thinking kombinuje rýchlosť a výkon, čím preukazuje pozoruhodnú odbornosť pri riešení zložitých problémov v matematike aj prírodných vedách. Kontextové okno s jedným miliónom tokenov umožňuje hlbšiu analýzu dlhého textu. Vylepšené myslenie poskytuje väčšiu konzistenciu medzi myšlienkami a odpoveďami.

Gemini 2.0 Flash Thinking

Limit vstupných tokenov1,048,576
Limit výstupných tokenov65,536

Všimnite si obrovské okno výstupného tokenu. Umožňuje modelu nielen spracovať dlhé požiadavky, ale aj vrátiť rozsiahle odpovede, čo sa môže hodiť napríklad pri generovaní veľkých častí kódu.

Pozrite sa, ako Gemini 2.0 Flash Thinking prekonáva Gemini 1.5 Pro a Gemini 2.0 v matematike, vede a multimodálnom uvažovaní. Možno nie je taký všestranný ako tieto dva modely vo všeobecnosti, ale v týchto špecifických oblastiach je Gemini 2.0 Flash Thinking bezkonkurenčný.

Matematika, prírodné vedy a uvažovanie

Matematika, prírodné vedy a uvažovanie

Matematika a prírodné vedy

Matematika a prírodné vedy

Kritika

Chatbot Gemini mal ťažký začiatok, keď bol vydaný v roku 2023. Vývojári sa príliš ponáhľali s vydaním konkurenta ChatGPT. A preto bola vydaná verzia chatbota plná chýb. Používatelia sa sťažovali na veľké množstvo faktických chýb a nepresností v odpovediach bota.

Jednou z najzávažnejších bola kontroverzia pri generovaní obrázkov. Gemini sa snažil prezentovať maximálnu rasovú rozmanitosť aj tam, kde to bolo nevhodné. Podľa chatbota takto vyzerali nemeckí vojaci v roku 1943:

Nemeckí vojaci v roku 1943 vygenerovaní Gemini

Takto vyzerali americkí senátori v 19. storočí:

Americkí senátori z 19. storočia vygenerovaní Gemini

Kvôli nespokojnosti používateľov klesli akcie spoločnosti o 4,5 %, čo zhruba zodpovedá strate 90 miliónov USD. Vývojári tiež museli dočasne zablokovať možnosť generovať obrázky ľudí.

Po kontroverzii okolo generovania obrázkov začali niektorí používatelia obviňovať textové odpovede spoločnosti Gemini zo zaujatosti voči ľavici. V jednom takomto príklade spoločnosť Gemini uviedla, že je „ťažké definitívne povedať“, či mal väčší negatívny vplyv na spoločnosť Elon Musk alebo nacistický diktátor Adolf Hitler. Okrem toho iní používatelia poznamenali, že Gemini podľa všetkého uprednostňuje ľavicových politikov a otázky, ako je pozitívna diskriminácia a právo na potrat, pričom sa zdráha podporovať pravicové osobnosti, spotrebu mäsa a fosílne palivá.

Treba však povedať, že všetky tieto ťažkosti sú už väčšinou za nami. Teraz Gemini nemá žiadne problémy a je jedným z najúspešnejších a najobľúbenejších chatbotov na svete.