Gemini: prehľad inovatívnych funkcií a modelov

Gemini je rodina chatbotov založená na umelej inteligencii, ktorú vyvinula spoločnosť Google. V súčasnosti je Gemini na treťom mieste medzi všetkými chatbotmi, pokiaľ ide o podiel na trhu, za ChatGPT a Microsoft Copilot. Gemini zároveň naďalej rastie rýchlejšie ako jeho konkurenti a neustále získava na popularite: z hľadiska prílevu nových používateľov mu patrí 4. miesto, pričom spomedzi známych chatbotov rastie rýchlejšie len Claude. V tomto článku sa pozrieme na históriu Gemini, súčasné modely, ich funkcie a obmedzenia.

Stručná história Google Gemini

Spoločnosť Google je priekopníkom v oblasti architektúry veľkých jazykových modelov a pri vývoji vlastných modelov umelej inteligencie vychádza zo svojho robustného výskumu.

2017: Výskumníci spoločnosti Google predstavujú architektúru transformátora, ktorá je základom mnohých dnešných veľkých jazykových modelov.
2020: Spoločnosť uvádza Meenu, chatbota založeného na neurónovej sieti s 2,6 miliardami parametrov, o ktorom spoločnosť Google tvrdí, že prekonáva všetky ostatné v tom čase existujúce chatboty.
2021: Meena sa premenúva na LaMDA (skratka pre Language Model for Dialogue Applications), pretože sa zvýšil jej dátový a výpočtový výkon.
2022: Vydáva sa nový jazykový model s názvom PaLM (Pathways Language Model), ktorý má v porovnaní s modelom LaMDA pokročilejšie možnosti.
2023: V prvom štvrťroku tohto roka je vydaný chatbot s názvom Google Bard, ktorý je podporovaný odľahčenou a optimalizovanou verziou LaMDA. Potom v druhom štvrťroku predstavili PaLM 2, ktorý obsahuje vylepšené kódovanie, viacjazyčné schopnosti a rozšírené schopnosti uvažovania, ktoré potom Bard prijal. Nakoniec v poslednom štvrťroku spoločnosť Google oznámila verziu Gemini 1.0.
2024: Spoločnosť Google premenúva Bard na Gemini a aktualizuje svoje multimodálne modely umelej inteligencie na verziu 1.5. V decembri sú predstavené modely Gemini 2.0.

V apríli 2024 generálny riaditeľ spoločnosti Google DeepMind Demis Hassabis uviedol, že spoločnosť časom vynaloží na vývoj technológií umelej inteligencie viac ako 100 miliárd dolárov.

Demis Hassabis

Charakteristické črty Blížencov

Každý chatbot má obmedzené znalosti o nedávnych udalostiach, pretože jeho tréningové údaje zahŕňajú len obmedzené časové obdobie. Hraničný dátum v kontexte chatbotov označuje časový bod, do ktorého bol model vycvičený na údajoch a môže poskytovať informácie. Ak má chatbot napríklad hraničný dátum október 2023, znamená to, že všetky znalosti a údaje, ku ktorým má prístup, sú aktuálne len do tohto dátumu. Akékoľvek udalosti, vývoj alebo zmeny, ktoré nastali po tomto dátume, sa v odpovediach chatbota neprejavia. Toto obmedzenie je dôležité, aby používatelia pochopili, pretože ovplyvňuje presnosť a relevantnosť poskytovaných informácií, najmä v rýchlo sa meniacich oblastiach, ako sú technológie, politika alebo aktuálne udalosti. Gemini však dokáže toto obmedzenie obísť tým, že pristupuje k informáciám z online vyhľadávania prostredníctvom vyhľadávača Google a spracúva ich, čím poskytuje aktuálnejšie odpovede.

Následne si používatelia môžu potrebovať overiť informácie z novších zdrojov, ak hľadajú najnovšie aktualizácie alebo poznatky. Niekedy Gemini zobrazuje zdroje a súvisiaci obsah v rámci svojej odpovede a pod ňou. Tie zahŕňajú webové zdroje s podobnými informáciami a odkazy, aby ste sa mohli dopátrať hlbšie. Gemini je navrhnutý tak, aby vytváral originálny obsah, ale ak priamo dlhšie cituje z webovej stránky, zobrazí sa citát s citovaným zdrojom a odkaz na túto stránku. Zdroje a súvisiaci obsah môžu zahŕňať webové stránky, ktoré Gemini citoval alebo ktoré sa týkajú častí jeho odpovede. Ak odpoveď spoločnosti Gemini obsahuje miniatúru obrázka z webu, zobrazí sa zdroj a uvedie sa odkaz priamo naň.

Gemini bol od začiatku navrhnutý multimodálne, čo znamená, že bol vycvičený na viacerých typoch údajov a teraz dokáže bezproblémovo pracovať s rôznymi typmi obsahu. Ako môžete vidieť na obrázku vyššie, bot môže do svojich odpovedí zahrnúť obrázky. Gemini dokáže porozumieť textu, zvuku, fragmentom videa, ručne písaným poznámkam, grafom, diagramom, dokáže identifikovať objekty na fotografiách a navyše dokáže vytvárať obrázky pomocou Imagenu 3, najpokročilejšieho modelu spoločnosti Google na prevod textu na obrázok.

Chatbot má tiež široké viacjazyčné možnosti, pretože je k dispozícii v 46 rôznych jazykoch.

Súčasné modely, ich silné stránky a možnosti

Gemini ponúka rôzne modely, ktoré sú optimalizované pre konkrétne prípady použitia. Tu je stručný prehľad dostupných variantov:

Model	Vstup	Výstup	Popis
Gemini 2.0 Flash	Zvuk, obrázky, videá a text	Text, obrázky (čoskoro) a zvuk (čoskoro)	Funkcie novej generácie, rýchlosť a multimodálne generovanie pre rôzne úlohy
Gemini 2.0 Flash Thinking	Text, obrázky	Text	Vylepšený model uvažovania, ktorý vyniká vo vede a matematike
Gemini 1.5 Flash	Zvuk, obrázky, videá a text	Text	Rýchly a všestranný výkon pri rôznych úlohách
Gemini 1.5 Flash-8B	Zvuk, obrázky, videá a text	Text	Úlohy s vysokým objemom a nižšou inteligenciou
Gemini 1.5 Pro	Zvuk, obrázky, videá a text	Text	Komplexné rozumové úlohy vyžadujúce viac inteligencie

Gemini 1.5 Flash sa dodáva s kontextovým oknom s 1 miliónom tokenov a Gemini 1.5 Pro sa dodáva s kontextovým oknom s 2 miliónmi tokenov, čo je najdlhšie zo všetkých veľkých jazykových modelov.

Jeden token zodpovedá približne 4 znakom pre modely Gemini. 100 tokenov predstavuje približne 60-80 anglických slov.

V praxi by 1 milión tokenov vyzeral takto:

50 000 riadkov kódu (so štandardnými 80 znakmi na riadok).
Prepisy viac ako 200 priemerne dlhých epizód podcastu.
8 priemerne dlhých anglických románov.
Všetky textové správy, ktoré ste poslali za posledných 5 rokov.

Gemini 1.5 Flash and Flash-8B
Limit vstupných tokenov	1,048,576
Limit výstupných tokenov	8,192
Maximálny počet obrázkov	3,600
Maximálna dĺžka videa	1 hodina
Maximálna dĺžka zvuku	Približne 9,5 hodiny

Gemini 1.5 Pro dosahuje takmer dokonalú pamäť pri úlohách vyhľadávania dlhých kontextov v rôznych modalitách, čím odomyká schopnosť presne spracovať dlhé dokumenty, tisíce riadkov kódu, hodiny zvuku, videa a ďalšie.

Gemini 1.5 Pro
Limit vstupných tokenov	2,097,152
Limit výstupných tokenov	8,192
Maximálny počet obrázkov	7,200
Maximálna dĺžka videa	2 hodiny
Maximálna dĺžka zvuku	Približne 19 hodín

Každý obrázok zodpovedá 258 tokenom. Podporované typy obrázkov:

PNG
WEBP
JPEG
HEIC
HEIF

Hoci okrem kontextového okna modelu neexistujú žiadne konkrétne obmedzenia počtu pixelov v obrázku, väčšie obrázky sú zmenšené na maximálne rozlíšenie 3072x3072 pri zachovaní pôvodného pomeru strán, zatiaľ čo menšie obrázky sú zmenšené na 768x768 pixelov.

Schopnosti videnia:

Podpisujte a odpovedajte na otázky o obrázkoch.
Prepisujte a zdôvodňujte súbory PDF vrátane dlhých dokumentov s kontextovým oknom až do 2 miliónov tokenov.
Popisovať, segmentovať a extrahovať informácie z videí vrátane vizuálnych snímok aj zvuku s dĺžkou až 90 minút.

Gemini dokáže správne rozpoznať celý ručne písaný obsah a overiť jeho odôvodnenie.

Zvukové možnosti Gemini:

Popíšte, zhrňte alebo odpovedzte na otázky týkajúce sa zvukového obsahu.
Poskytnite prepis zvukového záznamu.
Poskytnúť odpovede alebo prepis o konkrétnom segmente zvukového záznamu.

Podporované formáty zvuku:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

Každá sekunda zvuku zodpovedá 25 tokenom; napríklad jedna minúta zvuku predstavuje 1 500 tokenov.

Gemini 2.0 Flash
Limit vstupných tokenov	1,048,576
Limit výstupných tokenov	8,192

Gemini 2.0 Flash je najvýkonnejší a najvšestrannejší model z rodiny Gemini. Dokáže natívne vytvárať obrázky a generovať reč, a pokiaľ ide o výkon, prekonáva ostatné modely takmer vo všetkých kľúčových porovnávacích testoch. Presvedčte sa sami.

Schopnosti	Referenčná hodnota	Popis	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
Všeobecné	MMLU-Pro	Hodnotí, ako dobre modely strojového učenia rozumejú prirodzenému jazyku	67.3%	75.8%	76.4%
Kód	Natural2Code	Generovanie kódu v jazykoch Python, Java, C++, JS, Go	79.8%	85.4%	92.9%
Kód	Bird-SQL (Dev)	Vyhodnocuje prevod otázok v prirodzenom jazyku na spustiteľný jazyk SQL	45.6%	54.4%	56.9%
Skutočnosť	FACTS Grounding	Schopnosť poskytovať vecne správne odpovede vzhľadom na dokumenty a rôzne požiadavky používateľov	82.9%	80.0%	83.6%
Matematika	MATH	Náročné matematické úlohy (vrátane algebry, geometrie, predpočítavania a ďalších)	77.9%	86.5%	89.7%
Matematika	HiddenMath	Matematické úlohy na úrovni súťaže	47.2%	52.0%	63.0%
Zdôvodnenie	GPQA (diamond)	Náročný súbor údajov s otázkami, ktoré napísali odborníci z oblasti biológie, fyziky a chémie	51.0%	59.1%	62.1%
Obrázok	MMMU	Multidisciplinárne problémy multimodálneho porozumenia a uvažovania na vysokoškolskej úrovni	62.3%	65.9%	70.7%
Zvuk	CoVoST2 (21 lang)	Automatický preklad reči	37.4	40.1	39.2
Video	EgoSchema (test)	Analýza videa	66.8%	71.2%	71.5%

Gemini 2.0 Flash Thinking kombinuje rýchlosť a výkon, čím preukazuje pozoruhodnú odbornosť pri riešení zložitých problémov v matematike aj prírodných vedách. Kontextové okno s jedným miliónom tokenov umožňuje hlbšiu analýzu dlhého textu. Vylepšené myslenie poskytuje väčšiu konzistenciu medzi myšlienkami a odpoveďami.

Gemini 2.0 Flash Thinking
Limit vstupných tokenov	1,048,576
Limit výstupných tokenov	65,536

Všimnite si obrovské okno výstupného tokenu. Umožňuje modelu nielen spracovať dlhé požiadavky, ale aj vrátiť rozsiahle odpovede, čo sa môže hodiť napríklad pri generovaní veľkých častí kódu.

Pozrite sa, ako Gemini 2.0 Flash Thinking prekonáva Gemini 1.5 Pro a Gemini 2.0 v matematike, vede a multimodálnom uvažovaní. Možno nie je taký všestranný ako tieto dva modely vo všeobecnosti, ale v týchto špecifických oblastiach je Gemini 2.0 Flash Thinking bezkonkurenčný.

Matematika, prírodné vedy a uvažovanie

Matematika a prírodné vedy

Kritika

Chatbot Gemini mal ťažký začiatok, keď bol vydaný v roku 2023. Vývojári sa príliš ponáhľali s vydaním konkurenta ChatGPT. A preto bola vydaná verzia chatbota plná chýb. Používatelia sa sťažovali na veľké množstvo faktických chýb a nepresností v odpovediach bota.

Jednou z najzávažnejších bola kontroverzia pri generovaní obrázkov. Gemini sa snažil prezentovať maximálnu rasovú rozmanitosť aj tam, kde to bolo nevhodné. Podľa chatbota takto vyzerali nemeckí vojaci v roku 1943:

Nemeckí vojaci v roku 1943 vygenerovaní Gemini

Takto vyzerali americkí senátori v 19. storočí:

Americkí senátori z 19. storočia vygenerovaní Gemini

Kvôli nespokojnosti používateľov klesli akcie spoločnosti o 4,5 %, čo zhruba zodpovedá strate 90 miliónov USD. Vývojári tiež museli dočasne zablokovať možnosť generovať obrázky ľudí.

Po kontroverzii okolo generovania obrázkov začali niektorí používatelia obviňovať textové odpovede spoločnosti Gemini zo zaujatosti voči ľavici. V jednom takomto príklade spoločnosť Gemini uviedla, že je „ťažké definitívne povedať“, či mal väčší negatívny vplyv na spoločnosť Elon Musk alebo nacistický diktátor Adolf Hitler. Okrem toho iní používatelia poznamenali, že Gemini podľa všetkého uprednostňuje ľavicových politikov a otázky, ako je pozitívna diskriminácia a právo na potrat, pričom sa zdráha podporovať pravicové osobnosti, spotrebu mäsa a fosílne palivá.

Treba však povedať, že všetky tieto ťažkosti sú už väčšinou za nami. Teraz Gemini nemá žiadne problémy a je jedným z najúspešnejších a najobľúbenejších chatbotov na svete.