Gemini: přehled jeho inovativních funkcí a modelů

Gemini je rodina chatbotů založených na umělé inteligenci vyvinutá společností Google. V současné době je Gemini na třetím místě mezi všemi chatboty, pokud jde o podíl na trhu, za ChatGPT a Microsoft Copilot. Gemini zároveň stále roste rychleji než jeho konkurenti a neustále získává na popularitě: z hlediska přílivu nových uživatelů mu patří 4. místo, přičemž ze známých chatbotů roste rychleji pouze Claude. V tomto článku se podíváme na historii Gemini, současné modely, jejich funkce a omezení.

Stručná historie Google Gemini

Společnost Google je průkopníkem v architektuře velkých jazykových modelů a při vývoji vlastních modelů umělé inteligence vychází ze svého robustního výzkumu.

2017: Výzkumníci společnosti Google představují architekturu transformátoru, která je základem mnoha dnešních velkých jazykových modelů.
2020: Společnost představuje Meenu, chatbota založeného na neuronové síti s 2,6 miliardami parametrů, o kterém Google tvrdí, že předčí všechny ostatní v té době existující chatboty.
2021: Meena se přejmenovává na LaMDA (zkratka pro Language Model for Dialogue Applications), protože se zvyšuje jeho datový a výpočetní výkon.
2022: Je vydán nový jazykový model nazvaný PaLM (Pathways Language Model), který má ve srovnání s modelem LaMDA pokročilejší schopnosti.
2023: Během prvního čtvrtletí roku je vydán chatbot s názvem Google Bard, který je podporován odlehčenou a optimalizovanou verzí LaMDA. Ve druhém čtvrtletí je pak představen PaLM 2, který obsahuje vylepšené kódování, vícejazyčné schopnosti a rozšířené schopnosti uvažování, které Bard následně přejímá. A konečně v posledním čtvrtletí společnost Google oznámila verzi Gemini 1.0.
2024: Google přejmenovává Bard na Gemini a aktualizuje své multimodální modely umělé inteligence na verzi 1.5. V prosinci jsou představeny modely Gemini 2.0.

V dubnu 2024 generální ředitel společnosti Google DeepMind Demis Hassabis prohlásil, že společnost časem utratí více než 100 miliard dolarů za vývoj technologií umělé inteligence.

Demis Hassabis

Charakteristické rysy Gemini

Každý chatbot má omezené znalosti o nedávných událostech, protože jeho tréninková data zahrnují pouze omezený časový úsek. Mezní datum v kontextu chatbotů označuje časový okamžik, do kterého byl model na datech vycvičen a může poskytovat informace. Pokud má chatbot například datum ukončení v říjnu 2023, znamená to, že veškeré znalosti a data, ke kterým má přístup, jsou aktuální pouze do tohoto data. Veškeré události, vývoj nebo změny, které nastaly po tomto datu, se v odpovědích chatbota neprojeví. Toto omezení je pro uživatele důležité pochopit, protože ovlivňuje přesnost a relevanci poskytovaných informací, zejména v rychle se měnících oblastech, jako jsou technologie, politika nebo aktuální události. Gemini však může toto omezení obejít tím, že přistupuje k informacím z online vyhledávání prostřednictvím vyhledávače Google a zpracovává je, čímž poskytuje aktuálnější odpovědi.

V důsledku toho mohou uživatelé potřebovat ověřit informace z novějších zdrojů, pokud hledají nejnovější aktualizace nebo poznatky. Někdy Gemini zobrazuje zdroje a související obsah v rámci své odpovědi a pod ní. Ty zahrnují webové zdroje s podobnými informacemi a odkazy, které vám umožní pátrat hlouběji. Gemini je navržen tak, aby vytvářel originální obsah, ale pokud přímo dlouze cituje z webové stránky, zobrazí se uvozovky s citovaným zdrojem a odkaz na tuto stránku. Zdroje a související obsah mohou zahrnovat webové stránky, které Gemini citoval nebo které se vztahují k částem jeho odpovědi. Pokud odpověď společnosti Gemini obsahuje miniaturu obrázku z webu, zobrazí se zdroj a odkaz přímo na něj.

Gemini byl od počátku navržen jako multimodální, což znamená, že byl vyškolen na více typech dat a nyní může bezproblémově pracovat s různými typy obsahu. Jak vidíte na obrázku výše, bot může do svých odpovědí zahrnout obrázky. Gemini rozumí textu, zvuku, úryvkům videa, ručně psaným poznámkám, grafům, diagramům, dokáže identifikovat objekty na fotografiích a navíc dokáže generovat obrázky pomocí Imagenu 3, nejpokročilejšího modelu převodu textu na obrázek společnosti Google.

Chatbot má také široké vícejazyčné možnosti, protože je k dispozici ve 46 různých jazycích.

Současné modely, jejich silné stránky a možnosti

Gemini nabízí různé modely optimalizované pro konkrétní případy použití. Zde je stručný přehled dostupných variant:

Model	Vstup	Výstup	Popis
Gemini 2.0 Flash	Zvuk, obrázky, videa a text	Text, obrázky (již brzy) a zvuk (již brzy)	Funkce nové generace, rychlost a multimodální generování pro nejrůznější úlohy
Gemini 2.0 Flash Thinking	Text, obrázky	Text	Vylepšený model uvažování, který vyniká v přírodních vědách a matematice
Gemini 1.5 Flash	Zvuk, obrázky, videa a text	Text	Rychlý a všestranný výkon v různých úlohách
Gemini 1.5 Flash-8B	Zvuk, obrázky, videa a text	Text	Úkoly s vysokým objemem a nižší inteligencí
Gemini 1.5 Pro	Zvuk, obrázky, videa a text	Text	Složité rozumové úlohy vyžadující vyšší inteligenci

Gemini 1.5 Flash obsahuje kontextové okno s 1 milionem tokenů a Gemini 1.5 Pro obsahuje kontextové okno s 2 miliony tokenů, které je nejdelší ze všech velkých jazykových modelů.

Jeden token odpovídá přibližně 4 znakům u modelů Gemini. 100 tokenů představuje přibližně 60-80 anglických slov.

V praxi by 1 milion tokenů vypadal takto:

50 000 řádků kódu (se standardními 80 znaky na řádek).
Přepisy více než 200 průměrně dlouhých epizod podcastu.
8 průměrně dlouhých anglických románů.
Všechny textové zprávy, které jste poslali za posledních 5 let.

Gemini 1.5 Flash and Flash-8B
Limit vstupních tokenů	1,048,576
Limit výstupních tokenů	8,192
Maximální počet snímků	3,600
Maximální délka videa	1 hodina
Maximální délka zvuku	Přibližně 9,5 hodiny

Gemini 1.5 Pro dosahuje téměř dokonalé paměti v úlohách vyhledávání dlouhých kontextů napříč modalitami, čímž odemyká schopnost přesně zpracovávat dlouhé dokumenty, tisíce řádků kódu, hodiny zvuku, videa a další.

Gemini 1.5 Pro
Limit vstupních tokenů	2,097,152
Limit výstupních tokenů	8,192
Maximální počet snímků	7,200
Maximální délka videa	2 hodiny
Maximální délka zvuku	Přibližně 19 hodin

Každý obrázek odpovídá 258 tokenům. Podporované typy obrázků:

PNG
WEBP
JPEG
HEIC
HEIF

Ačkoli kromě kontextového okna modelu neexistují žádná konkrétní omezení počtu pixelů v obrázku, větší obrázky jsou zmenšeny na maximální rozlišení 3072x3072 při zachování původního poměru stran, zatímco menší obrázky jsou zmenšeny na 768x768 pixelů.

Schopnosti vidění:

Popisovat obrázky a odpovídat na otázky k nim.
Přepisujte a zdůvodňujte dokumenty PDF, včetně dlouhých dokumentů s kontextovým oknem až 2 miliony tokenů.
Popisovat, segmentovat a extrahovat informace z videí, včetně vizuálních snímků i zvuku, o délce až 90 minut.

Gemini dokáže správně rozpoznat veškerý ručně psaný obsah a ověřit jeho zdůvodnění.

Zvukové možnosti Gemini:

Popište, shrňte nebo odpovězte na otázky týkající se zvukového obsahu.
Poskytněte přepis zvukového záznamu.
Poskytnout odpovědi nebo přepis o konkrétním úseku zvukového záznamu.

Podporované formáty zvuku:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

Každá sekunda zvuku odpovídá 25 tokenům; například jedna minuta zvuku je reprezentována 1 500 tokeny.

Gemini 2.0 Flash
Limit vstupních tokenů	1,048,576
Limit výstupních tokenů	8,192

Gemini 2.0 Flash je nejvýkonnější a nejuniverzálnější model řady Gemini. Dokáže nativně vytvářet obrázky a generovat řeč, a pokud jde o výkon, překonává ostatní modely téměř ve všech klíčových srovnávacích testech. Přesvědčte se sami.

Schopnosti	Benchmark	Popis	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
Obecné	MMLU-Pro	Vyhodnocuje, jak dobře modely strojového učení rozumí přirozenému jazyku	67.3%	75.8%	76.4%
Kód	Natural2Code	Generování kódu v jazycích Python, Java, C++, JS, Go	79.8%	85.4%	92.9%
Kód	Bird-SQL (Dev)	Vyhodnocuje převod otázek v přirozeném jazyce na spustitelný jazyk SQL	45.6%	54.4%	56.9%
Fakticita	FACTS Grounding	Schopnost poskytovat věcně správné odpovědi na základě dokumentů a různých požadavků uživatelů	82.9%	80.0%	83.6%
Matematika	MATH	Náročné matematické úlohy (včetně algebry, geometrie, předpočítání a dalších)	77.9%	86.5%	89.7%
Matematika	HiddenMath	Matematické úlohy na úrovni soutěže	47.2%	52.0%	63.0%
Zdůvodnění	GPQA (diamond)	Náročný datový soubor otázek napsaných odborníky na biologii, fyziku a chemii	51.0%	59.1%	62.1%
Obrázek	MMMU	Víceoborové problémy s multimodálním porozuměním a uvažováním na vysokoškolské úrovni	62.3%	65.9%	70.7%
Audio	CoVoST2 (21 lang)	Automatický překlad řeči	37.4	40.1	39.2
Video	EgoSchema (test)	Analýza videa	66.8%	71.2%	71.5%

Gemini 2.0 Flash Thinking kombinuje rychlost a výkon a prokazuje pozoruhodné znalosti při řešení složitých problémů v matematice i přírodních vědách. Kontextové okno s jedním milionem tokenů umožňuje hlubší analýzu dlouhého textu. Vylepšené myšlení poskytuje větší konzistenci mezi myšlenkami a odpověďmi.

Gemini 2.0 Flash Thinking
Limit vstupních tokenů	1,048,576
Limit výstupních tokenů	65,536

Všimněte si obrovského okna výstupního tokenu. Umožňuje modelu nejen zpracovávat dlouhé požadavky, ale také vracet rozsáhlé odpovědi, což se může hodit například při generování velkých kusů kódu.

Podívejte se, jak Gemini 2.0 Flash Thinking překonává Gemini 1.5 Pro a Gemini 2.0 v matematice, vědě a multimodálním uvažování. Možná není tak všestranný jako tyto dva modely obecně, ale v těchto konkrétních oblastech je Gemini 2.0 Flash Thinking bezkonkurenční.

Matematika, přírodní vědy a uvažování

Matematika a přírodní vědy

Kritika

Chatbot Gemini měl při svém uvedení na trh v roce 2023 těžké začátky. Vývojáři příliš spěchali s vydáním konkurenta ChatGPT. A proto byla uvolněná verze chatbota plná chyb. Uživatelé si stěžovali na velké množství faktických chyb a nepřesností v odpovědích bota.

Jednou z nejzávažnějších byla kontroverze při generování obrázků. Gemini se snažil prezentovat maximální rasovou rozmanitost i tam, kde to nebylo vhodné. Podle chatbota takto vypadali němečtí vojáci v roce 1943:

Němečtí vojáci v roce 1943 vygenerovaní Gemini

A takto vypadali američtí senátoři v 19. století:

Američtí senátoři z 19. století vygenerovaní Gemini

Kvůli nespokojenosti uživatelů klesly akcie společnosti o 4,5 %, což zhruba odpovídá ztrátě 90 milionů dolarů. Vývojáři také museli dočasně zablokovat možnost generování obrázků lidí.

V návaznosti na kontroverze kolem generování obrázků začali někteří uživatelé obviňovat textové odpovědi Gemini z neobjektivity vůči levici. V jednom takovém příkladu společnost Gemini uvedla, že je „těžké jednoznačně říci“, zda měl větší negativní dopad na společnost Elon Musk, nebo nacistický diktátor Adolf Hitler. Další uživatelé navíc poznamenali, že Gemini podle všeho upřednostňuje levicové politiky a otázky, jako je pozitivní diskriminace a právo na potrat, zatímco se zdráhá podporovat pravicové osobnosti, spotřebu masa a fosilní paliva.

Je však třeba říci, že všechny tyto potíže jsou již většinou za námi. Nyní Gemini žádné problémy nemá a je jedním z nejúspěšnějších a nejoblíbenějších chatbotů na světě.