Gemini: prehľad inovatívnych funkcií a modelov
Gemini je rodina chatbotov založená na umelej inteligencii, ktorú vyvinula spoločnosť Google. V súčasnosti je Gemini na treťom mieste medzi všetkými chatbotmi, pokiaľ ide o podiel na trhu, za ChatGPT a Microsoft Copilot. Gemini zároveň naďalej rastie rýchlejšie ako jeho konkurenti a neustále získava na popularite: z hľadiska prílevu nových používateľov mu patrí 4. miesto, pričom spomedzi známych chatbotov rastie rýchlejšie len Claude. V tomto článku sa pozrieme na históriu Gemini, súčasné modely, ich funkcie a obmedzenia.
Stručná história Google Gemini
Spoločnosť Google je priekopníkom v oblasti architektúry veľkých jazykových modelov a pri vývoji vlastných modelov umelej inteligencie vychádza zo svojho robustného výskumu.
- 2017: Výskumníci spoločnosti Google predstavujú architektúru transformátora, ktorá je základom mnohých dnešných veľkých jazykových modelov.
- 2020: Spoločnosť uvádza Meenu, chatbota založeného na neurónovej sieti s 2,6 miliardami parametrov, o ktorom spoločnosť Google tvrdí, že prekonáva všetky ostatné v tom čase existujúce chatboty.
- 2021: Meena sa premenúva na LaMDA (skratka pre Language Model for Dialogue Applications), pretože sa zvýšil jej dátový a výpočtový výkon.
- 2022: Vydáva sa nový jazykový model s názvom PaLM (Pathways Language Model), ktorý má v porovnaní s modelom LaMDA pokročilejšie možnosti.
- 2023: V prvom štvrťroku tohto roka je vydaný chatbot s názvom Google Bard, ktorý je podporovaný odľahčenou a optimalizovanou verziou LaMDA. Potom v druhom štvrťroku predstavili PaLM 2, ktorý obsahuje vylepšené kódovanie, viacjazyčné schopnosti a rozšírené schopnosti uvažovania, ktoré potom Bard prijal. Nakoniec v poslednom štvrťroku spoločnosť Google oznámila verziu Gemini 1.0.
- 2024: Spoločnosť Google premenúva Bard na Gemini a aktualizuje svoje multimodálne modely umelej inteligencie na verziu 1.5. V decembri sú predstavené modely Gemini 2.0.
V apríli 2024 generálny riaditeľ spoločnosti Google DeepMind Demis Hassabis uviedol, že spoločnosť časom vynaloží na vývoj technológií umelej inteligencie viac ako 100 miliárd dolárov.

Demis Hassabis
Charakteristické črty Blížencov
Každý chatbot má obmedzené znalosti o nedávnych udalostiach, pretože jeho tréningové údaje zahŕňajú len obmedzené časové obdobie. Hraničný dátum v kontexte chatbotov označuje časový bod, do ktorého bol model vycvičený na údajoch a môže poskytovať informácie. Ak má chatbot napríklad hraničný dátum október 2023, znamená to, že všetky znalosti a údaje, ku ktorým má prístup, sú aktuálne len do tohto dátumu. Akékoľvek udalosti, vývoj alebo zmeny, ktoré nastali po tomto dátume, sa v odpovediach chatbota neprejavia. Toto obmedzenie je dôležité, aby používatelia pochopili, pretože ovplyvňuje presnosť a relevantnosť poskytovaných informácií, najmä v rýchlo sa meniacich oblastiach, ako sú technológie, politika alebo aktuálne udalosti. Gemini však dokáže toto obmedzenie obísť tým, že pristupuje k informáciám z online vyhľadávania prostredníctvom vyhľadávača Google a spracúva ich, čím poskytuje aktuálnejšie odpovede.
Následne si používatelia môžu potrebovať overiť informácie z novších zdrojov, ak hľadajú najnovšie aktualizácie alebo poznatky. Niekedy Gemini zobrazuje zdroje a súvisiaci obsah v rámci svojej odpovede a pod ňou. Tie zahŕňajú webové zdroje s podobnými informáciami a odkazy, aby ste sa mohli dopátrať hlbšie. Gemini je navrhnutý tak, aby vytváral originálny obsah, ale ak priamo dlhšie cituje z webovej stránky, zobrazí sa citát s citovaným zdrojom a odkaz na túto stránku. Zdroje a súvisiaci obsah môžu zahŕňať webové stránky, ktoré Gemini citoval alebo ktoré sa týkajú častí jeho odpovede. Ak odpoveď spoločnosti Gemini obsahuje miniatúru obrázka z webu, zobrazí sa zdroj a uvedie sa odkaz priamo naň.

Gemini bol od začiatku navrhnutý multimodálne, čo znamená, že bol vycvičený na viacerých typoch údajov a teraz dokáže bezproblémovo pracovať s rôznymi typmi obsahu. Ako môžete vidieť na obrázku vyššie, bot môže do svojich odpovedí zahrnúť obrázky. Gemini dokáže porozumieť textu, zvuku, fragmentom videa, ručne písaným poznámkam, grafom, diagramom, dokáže identifikovať objekty na fotografiách a navyše dokáže vytvárať obrázky pomocou Imagenu 3, najpokročilejšieho modelu spoločnosti Google na prevod textu na obrázok.
Chatbot má tiež široké viacjazyčné možnosti, pretože je k dispozícii v 46 rôznych jazykoch.
Súčasné modely, ich silné stránky a možnosti
Gemini ponúka rôzne modely, ktoré sú optimalizované pre konkrétne prípady použitia. Tu je stručný prehľad dostupných variantov:
Model | Vstup | Výstup | Popis |
Gemini 2.0 Flash | Zvuk, obrázky, videá a text | Text, obrázky (čoskoro) a zvuk (čoskoro) | Funkcie novej generácie, rýchlosť a multimodálne generovanie pre rôzne úlohy |
Gemini 2.0 Flash Thinking | Text, obrázky | Text | Vylepšený model uvažovania, ktorý vyniká vo vede a matematike |
Gemini 1.5 Flash | Zvuk, obrázky, videá a text | Text | Rýchly a všestranný výkon pri rôznych úlohách |
Gemini 1.5 Flash-8B | Zvuk, obrázky, videá a text | Text | Úlohy s vysokým objemom a nižšou inteligenciou |
Gemini 1.5 Pro | Zvuk, obrázky, videá a text | Text | Komplexné rozumové úlohy vyžadujúce viac inteligencie |
Gemini 1.5 Flash sa dodáva s kontextovým oknom s 1 miliónom tokenov a Gemini 1.5 Pro sa dodáva s kontextovým oknom s 2 miliónmi tokenov, čo je najdlhšie zo všetkých veľkých jazykových modelov.
Jeden token zodpovedá približne 4 znakom pre modely Gemini. 100 tokenov predstavuje približne 60-80 anglických slov.
V praxi by 1 milión tokenov vyzeral takto:
- 50 000 riadkov kódu (so štandardnými 80 znakmi na riadok).
- Prepisy viac ako 200 priemerne dlhých epizód podcastu.
- 8 priemerne dlhých anglických románov.
- Všetky textové správy, ktoré ste poslali za posledných 5 rokov.
Gemini 1.5 Flash and Flash-8B | |
| Limit vstupných tokenov | 1,048,576 |
| Limit výstupných tokenov | 8,192 |
| Maximálny počet obrázkov | 3,600 |
| Maximálna dĺžka videa | 1 hodina |
| Maximálna dĺžka zvuku | Približne 9,5 hodiny |
Gemini 1.5 Pro dosahuje takmer dokonalú pamäť pri úlohách vyhľadávania dlhých kontextov v rôznych modalitách, čím odomyká schopnosť presne spracovať dlhé dokumenty, tisíce riadkov kódu, hodiny zvuku, videa a ďalšie.
Gemini 1.5 Pro | |
| Limit vstupných tokenov | 2,097,152 |
| Limit výstupných tokenov | 8,192 |
| Maximálny počet obrázkov | 7,200 |
| Maximálna dĺžka videa | 2 hodiny |
| Maximálna dĺžka zvuku | Približne 19 hodín |
Každý obrázok zodpovedá 258 tokenom. Podporované typy obrázkov:
- PNG
- WEBP
- JPEG
- HEIC
- HEIF
Hoci okrem kontextového okna modelu neexistujú žiadne konkrétne obmedzenia počtu pixelov v obrázku, väčšie obrázky sú zmenšené na maximálne rozlíšenie 3072x3072 pri zachovaní pôvodného pomeru strán, zatiaľ čo menšie obrázky sú zmenšené na 768x768 pixelov.
Schopnosti videnia:
- Podpisujte a odpovedajte na otázky o obrázkoch.
- Prepisujte a zdôvodňujte súbory PDF vrátane dlhých dokumentov s kontextovým oknom až do 2 miliónov tokenov.
- Popisovať, segmentovať a extrahovať informácie z videí vrátane vizuálnych snímok aj zvuku s dĺžkou až 90 minút.

Gemini dokáže správne rozpoznať celý ručne písaný obsah a overiť jeho odôvodnenie.
Zvukové možnosti Gemini:
- Popíšte, zhrňte alebo odpovedzte na otázky týkajúce sa zvukového obsahu.
- Poskytnite prepis zvukového záznamu.
- Poskytnúť odpovede alebo prepis o konkrétnom segmente zvukového záznamu.
Podporované formáty zvuku:
- WAV
- MP3
- FLAC
- OGG Vorbis
- AIFF
- AAC
Každá sekunda zvuku zodpovedá 25 tokenom; napríklad jedna minúta zvuku predstavuje 1 500 tokenov.
Gemini 2.0 Flash | |
| Limit vstupných tokenov | 1,048,576 |
| Limit výstupných tokenov | 8,192 |
Gemini 2.0 Flash je najvýkonnejší a najvšestrannejší model z rodiny Gemini. Dokáže natívne vytvárať obrázky a generovať reč, a pokiaľ ide o výkon, prekonáva ostatné modely takmer vo všetkých kľúčových porovnávacích testoch. Presvedčte sa sami.
| Schopnosti | Referenčná hodnota | Popis | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 2.0 Flash |
| Všeobecné | MMLU-Pro | Hodnotí, ako dobre modely strojového učenia rozumejú prirodzenému jazyku | 67.3% | 75.8% | 76.4% |
| Kód | Natural2Code | Generovanie kódu v jazykoch Python, Java, C++, JS, Go | 79.8% | 85.4% | 92.9% |
| Kód | Bird-SQL (Dev) | Vyhodnocuje prevod otázok v prirodzenom jazyku na spustiteľný jazyk SQL | 45.6% | 54.4% | 56.9% |
| Skutočnosť | FACTS Grounding | Schopnosť poskytovať vecne správne odpovede vzhľadom na dokumenty a rôzne požiadavky používateľov | 82.9% | 80.0% | 83.6% |
| Matematika | MATH | Náročné matematické úlohy (vrátane algebry, geometrie, predpočítavania a ďalších) | 77.9% | 86.5% | 89.7% |
| Matematika | HiddenMath | Matematické úlohy na úrovni súťaže | 47.2% | 52.0% | 63.0% |
| Zdôvodnenie | GPQA (diamond) | Náročný súbor údajov s otázkami, ktoré napísali odborníci z oblasti biológie, fyziky a chémie | 51.0% | 59.1% | 62.1% |
| Obrázok | MMMU | Multidisciplinárne problémy multimodálneho porozumenia a uvažovania na vysokoškolskej úrovni | 62.3% | 65.9% | 70.7% |
| Zvuk | CoVoST2 (21 lang) | Automatický preklad reči | 37.4 | 40.1 | 39.2 |
| Video | EgoSchema (test) | Analýza videa | 66.8% | 71.2% | 71.5% |
Gemini 2.0 Flash Thinking kombinuje rýchlosť a výkon, čím preukazuje pozoruhodnú odbornosť pri riešení zložitých problémov v matematike aj prírodných vedách. Kontextové okno s jedným miliónom tokenov umožňuje hlbšiu analýzu dlhého textu. Vylepšené myslenie poskytuje väčšiu konzistenciu medzi myšlienkami a odpoveďami.
Gemini 2.0 Flash Thinking | |
| Limit vstupných tokenov | 1,048,576 |
| Limit výstupných tokenov | 65,536 |
Všimnite si obrovské okno výstupného tokenu. Umožňuje modelu nielen spracovať dlhé požiadavky, ale aj vrátiť rozsiahle odpovede, čo sa môže hodiť napríklad pri generovaní veľkých častí kódu.
Pozrite sa, ako Gemini 2.0 Flash Thinking prekonáva Gemini 1.5 Pro a Gemini 2.0 v matematike, vede a multimodálnom uvažovaní. Možno nie je taký všestranný ako tieto dva modely vo všeobecnosti, ale v týchto špecifických oblastiach je Gemini 2.0 Flash Thinking bezkonkurenčný.

Matematika, prírodné vedy a uvažovanie

Matematika a prírodné vedy
Kritika
Chatbot Gemini mal ťažký začiatok, keď bol vydaný v roku 2023. Vývojári sa príliš ponáhľali s vydaním konkurenta ChatGPT. A preto bola vydaná verzia chatbota plná chýb. Používatelia sa sťažovali na veľké množstvo faktických chýb a nepresností v odpovediach bota.
Jednou z najzávažnejších bola kontroverzia pri generovaní obrázkov. Gemini sa snažil prezentovať maximálnu rasovú rozmanitosť aj tam, kde to bolo nevhodné. Podľa chatbota takto vyzerali nemeckí vojaci v roku 1943:

Takto vyzerali americkí senátori v 19. storočí:

Kvôli nespokojnosti používateľov klesli akcie spoločnosti o 4,5 %, čo zhruba zodpovedá strate 90 miliónov USD. Vývojári tiež museli dočasne zablokovať možnosť generovať obrázky ľudí.
Po kontroverzii okolo generovania obrázkov začali niektorí používatelia obviňovať textové odpovede spoločnosti Gemini zo zaujatosti voči ľavici. V jednom takomto príklade spoločnosť Gemini uviedla, že je „ťažké definitívne povedať“, či mal väčší negatívny vplyv na spoločnosť Elon Musk alebo nacistický diktátor Adolf Hitler. Okrem toho iní používatelia poznamenali, že Gemini podľa všetkého uprednostňuje ľavicových politikov a otázky, ako je pozitívna diskriminácia a právo na potrat, pričom sa zdráha podporovať pravicové osobnosti, spotrebu mäsa a fosílne palivá.
Treba však povedať, že všetky tieto ťažkosti sú už väčšinou za nami. Teraz Gemini nemá žiadne problémy a je jedným z najúspešnejších a najobľúbenejších chatbotov na svete.