Zpět na hlavní stránku

Gemini: přehled jeho inovativních funkcí a modelů

Gemini je rodina chatbotů založených na umělé inteligenci vyvinutá společností Google. V současné době je Gemini na třetím místě mezi všemi chatboty, pokud jde o podíl na trhu, za ChatGPT a Microsoft Copilot. Gemini zároveň stále roste rychleji než jeho konkurenti a neustále získává na popularitě: z hlediska přílivu nových uživatelů mu patří 4. místo, přičemž ze známých chatbotů roste rychleji pouze Claude. V tomto článku se podíváme na historii Gemini, současné modely, jejich funkce a omezení.

Stručná historie Google Gemini

Společnost Google je průkopníkem v architektuře velkých jazykových modelů a při vývoji vlastních modelů umělé inteligence vychází ze svého robustního výzkumu.

  • 2017: Výzkumníci společnosti Google představují architekturu transformátoru, která je základem mnoha dnešních velkých jazykových modelů.
  • 2020: Společnost představuje Meenu, chatbota založeného na neuronové síti s 2,6 miliardami parametrů, o kterém Google tvrdí, že předčí všechny ostatní v té době existující chatboty.
  • 2021: Meena se přejmenovává na LaMDA (zkratka pro Language Model for Dialogue Applications), protože se zvyšuje jeho datový a výpočetní výkon.
  • 2022: Je vydán nový jazykový model nazvaný PaLM (Pathways Language Model), který má ve srovnání s modelem LaMDA pokročilejší schopnosti.
  • 2023: Během prvního čtvrtletí roku je vydán chatbot s názvem Google Bard, který je podporován odlehčenou a optimalizovanou verzí LaMDA. Ve druhém čtvrtletí je pak představen PaLM 2, který obsahuje vylepšené kódování, vícejazyčné schopnosti a rozšířené schopnosti uvažování, které Bard následně přejímá. A konečně v posledním čtvrtletí společnost Google oznámila verzi Gemini 1.0.
  • 2024: Google přejmenovává Bard na Gemini a aktualizuje své multimodální modely umělé inteligence na verzi 1.5. V prosinci jsou představeny modely Gemini 2.0.

V dubnu 2024 generální ředitel společnosti Google DeepMind Demis Hassabis prohlásil, že společnost časem utratí více než 100 miliard dolarů za vývoj technologií umělé inteligence.

Demis Hassabis

Demis Hassabis

Charakteristické rysy Gemini

Každý chatbot má omezené znalosti o nedávných událostech, protože jeho tréninková data zahrnují pouze omezený časový úsek. Mezní datum v kontextu chatbotů označuje časový okamžik, do kterého byl model na datech vycvičen a může poskytovat informace. Pokud má chatbot například datum ukončení v říjnu 2023, znamená to, že veškeré znalosti a data, ke kterým má přístup, jsou aktuální pouze do tohoto data. Veškeré události, vývoj nebo změny, které nastaly po tomto datu, se v odpovědích chatbota neprojeví. Toto omezení je pro uživatele důležité pochopit, protože ovlivňuje přesnost a relevanci poskytovaných informací, zejména v rychle se měnících oblastech, jako jsou technologie, politika nebo aktuální události. Gemini však může toto omezení obejít tím, že přistupuje k informacím z online vyhledávání prostřednictvím vyhledávače Google a zpracovává je, čímž poskytuje aktuálnější odpovědi.

V důsledku toho mohou uživatelé potřebovat ověřit informace z novějších zdrojů, pokud hledají nejnovější aktualizace nebo poznatky. Někdy Gemini zobrazuje zdroje a související obsah v rámci své odpovědi a pod ní. Ty zahrnují webové zdroje s podobnými informacemi a odkazy, které vám umožní pátrat hlouběji. Gemini je navržen tak, aby vytvářel originální obsah, ale pokud přímo dlouze cituje z webové stránky, zobrazí se uvozovky s citovaným zdrojem a odkaz na tuto stránku. Zdroje a související obsah mohou zahrnovat webové stránky, které Gemini citoval nebo které se vztahují k částem jeho odpovědi. Pokud odpověď společnosti Gemini obsahuje miniaturu obrázku z webu, zobrazí se zdroj a odkaz přímo na něj.

Gemini ukazuje obrázky New Yorku

Gemini byl od počátku navržen jako multimodální, což znamená, že byl vyškolen na více typech dat a nyní může bezproblémově pracovat s různými typy obsahu. Jak vidíte na obrázku výše, bot může do svých odpovědí zahrnout obrázky. Gemini rozumí textu, zvuku, úryvkům videa, ručně psaným poznámkám, grafům, diagramům, dokáže identifikovat objekty na fotografiích a navíc dokáže generovat obrázky pomocí Imagenu 3, nejpokročilejšího modelu převodu textu na obrázek společnosti Google.

Chatbot má také široké vícejazyčné možnosti, protože je k dispozici ve 46 různých jazycích.

Současné modely, jejich silné stránky a možnosti

Gemini nabízí různé modely optimalizované pro konkrétní případy použití. Zde je stručný přehled dostupných variant:

Model

VstupVýstupPopis

Gemini 2.0 Flash

Zvuk, obrázky, videa a textText, obrázky (již brzy) a zvuk (již brzy)Funkce nové generace, rychlost a multimodální generování pro nejrůznější úlohy

Gemini 2.0 Flash Thinking

Text, obrázky

Text

Vylepšený model uvažování, který vyniká v přírodních vědách a matematice

Gemini 1.5 Flash

Zvuk, obrázky, videa a text

Text

Rychlý a všestranný výkon v různých úlohách

Gemini 1.5 Flash-8B

Zvuk, obrázky, videa a text

Text

Úkoly s vysokým objemem a nižší inteligencí

Gemini 1.5 Pro

Zvuk, obrázky, videa a text

Text

Složité rozumové úlohy vyžadující vyšší inteligenci

Gemini 1.5 Flash obsahuje kontextové okno s 1 milionem tokenů a Gemini 1.5 Pro obsahuje kontextové okno s 2 miliony tokenů, které je nejdelší ze všech velkých jazykových modelů.

Jeden token odpovídá přibližně 4 znakům u modelů Gemini. 100 tokenů představuje přibližně 60-80 anglických slov.

V praxi by 1 milion tokenů vypadal takto:

  • 50 000 řádků kódu (se standardními 80 znaky na řádek).
  • Přepisy více než 200 průměrně dlouhých epizod podcastu.
  • 8 průměrně dlouhých anglických románů.
  • Všechny textové zprávy, které jste poslali za posledních 5 let.

Gemini 1.5 Flash and Flash-8B

Limit vstupních tokenů1,048,576
Limit výstupních tokenů8,192
Maximální počet snímků3,600
Maximální délka videa1 hodina
Maximální délka zvukuPřibližně 9,5 hodiny

Gemini 1.5 Pro dosahuje téměř dokonalé paměti v úlohách vyhledávání dlouhých kontextů napříč modalitami, čímž odemyká schopnost přesně zpracovávat dlouhé dokumenty, tisíce řádků kódu, hodiny zvuku, videa a další.

Gemini 1.5 Pro

Limit vstupních tokenů2,097,152
Limit výstupních tokenů8,192
Maximální počet snímků7,200
Maximální délka videa2 hodiny
Maximální délka zvukuPřibližně 19 hodin

Každý obrázek odpovídá 258 tokenům. Podporované typy obrázků:

  • PNG
  • WEBP
  • JPEG
  • HEIC
  • HEIF

Ačkoli kromě kontextového okna modelu neexistují žádná konkrétní omezení počtu pixelů v obrázku, větší obrázky jsou zmenšeny na maximální rozlišení 3072x3072 při zachování původního poměru stran, zatímco menší obrázky jsou zmenšeny na 768x768 pixelů.

Schopnosti vidění:

  • Popisovat obrázky a odpovídat na otázky k nim.
  • Přepisujte a zdůvodňujte dokumenty PDF, včetně dlouhých dokumentů s kontextovým oknem až 2 miliony tokenů.
  • Popisovat, segmentovat a extrahovat informace z videí, včetně vizuálních snímků i zvuku, o délce až 90 minut.
Gemini dokáže správně rozpoznat veškerý ručně psaný obsah a ověřit jeho zdůvodnění.

Gemini dokáže správně rozpoznat veškerý ručně psaný obsah a ověřit jeho zdůvodnění.

Zvukové možnosti Gemini:

  • Popište, shrňte nebo odpovězte na otázky týkající se zvukového obsahu.
  • Poskytněte přepis zvukového záznamu.
  • Poskytnout odpovědi nebo přepis o konkrétním úseku zvukového záznamu.

Podporované formáty zvuku:

  • WAV
  • MP3
  • FLAC
  • OGG Vorbis
  • AIFF
  • AAC

Každá sekunda zvuku odpovídá 25 tokenům; například jedna minuta zvuku je reprezentována 1 500 tokeny.

Gemini 2.0 Flash

Limit vstupních tokenů1,048,576
Limit výstupních tokenů8,192

Gemini 2.0 Flash je nejvýkonnější a nejuniverzálnější model řady Gemini. Dokáže nativně vytvářet obrázky a generovat řeč, a pokud jde o výkon, překonává ostatní modely téměř ve všech klíčových srovnávacích testech. Přesvědčte se sami.

SchopnostiBenchmarkPopisGemini 1.5 FlashGemini 1.5 ProGemini 2.0 Flash
ObecnéMMLU-ProVyhodnocuje, jak dobře modely strojového učení rozumí přirozenému jazyku67.3%75.8%76.4%
KódNatural2CodeGenerování kódu v jazycích Python, Java, C++, JS, Go79.8%85.4%92.9%
KódBird-SQL (Dev)Vyhodnocuje převod otázek v přirozeném jazyce na spustitelný jazyk SQL45.6%54.4%56.9%
FakticitaFACTS GroundingSchopnost poskytovat věcně správné odpovědi na základě dokumentů a různých požadavků uživatelů82.9%80.0%83.6%
MatematikaMATHNáročné matematické úlohy (včetně algebry, geometrie, předpočítání a dalších)77.9%86.5%89.7%
MatematikaHiddenMathMatematické úlohy na úrovni soutěže47.2%52.0%63.0%
ZdůvodněníGPQA (diamond)Náročný datový soubor otázek napsaných odborníky na biologii, fyziku a chemii51.0%59.1%62.1%
ObrázekMMMUVíceoborové problémy s multimodálním porozuměním a uvažováním na vysokoškolské úrovni62.3%65.9%70.7%
AudioCoVoST2 (21 lang)Automatický překlad řeči37.440.139.2
VideoEgoSchema (test)Analýza videa66.8%71.2%71.5%

Gemini 2.0 Flash Thinking kombinuje rychlost a výkon a prokazuje pozoruhodné znalosti při řešení složitých problémů v matematice i přírodních vědách. Kontextové okno s jedním milionem tokenů umožňuje hlubší analýzu dlouhého textu. Vylepšené myšlení poskytuje větší konzistenci mezi myšlenkami a odpověďmi.

Gemini 2.0 Flash Thinking

Limit vstupních tokenů1,048,576
Limit výstupních tokenů65,536

Všimněte si obrovského okna výstupního tokenu. Umožňuje modelu nejen zpracovávat dlouhé požadavky, ale také vracet rozsáhlé odpovědi, což se může hodit například při generování velkých kusů kódu.

Podívejte se, jak Gemini 2.0 Flash Thinking překonává Gemini 1.5 Pro a Gemini 2.0 v matematice, vědě a multimodálním uvažování. Možná není tak všestranný jako tyto dva modely obecně, ale v těchto konkrétních oblastech je Gemini 2.0 Flash Thinking bezkonkurenční.

Matematika, přírodní vědy a uvažování

Matematika, přírodní vědy a uvažování

Matematika a přírodní vědy

Matematika a přírodní vědy

Kritika

Chatbot Gemini měl při svém uvedení na trh v roce 2023 těžké začátky. Vývojáři příliš spěchali s vydáním konkurenta ChatGPT. A proto byla uvolněná verze chatbota plná chyb. Uživatelé si stěžovali na velké množství faktických chyb a nepřesností v odpovědích bota.

Jednou z nejzávažnějších byla kontroverze při generování obrázků. Gemini se snažil prezentovat maximální rasovou rozmanitost i tam, kde to nebylo vhodné. Podle chatbota takto vypadali němečtí vojáci v roce 1943:

Němečtí vojáci v roce 1943 vygenerovaní Gemini

A takto vypadali američtí senátoři v 19. století:

Američtí senátoři z 19. století vygenerovaní Gemini

Kvůli nespokojenosti uživatelů klesly akcie společnosti o 4,5 %, což zhruba odpovídá ztrátě 90 milionů dolarů. Vývojáři také museli dočasně zablokovat možnost generování obrázků lidí.

V návaznosti na kontroverze kolem generování obrázků začali někteří uživatelé obviňovat textové odpovědi Gemini z neobjektivity vůči levici. V jednom takovém příkladu společnost Gemini uvedla, že je „těžké jednoznačně říci“, zda měl větší negativní dopad na společnost Elon Musk, nebo nacistický diktátor Adolf Hitler. Další uživatelé navíc poznamenali, že Gemini podle všeho upřednostňuje levicové politiky a otázky, jako je pozitivní diskriminace a právo na potrat, zatímco se zdráhá podporovat pravicové osobnosti, spotřebu masa a fosilní paliva.

Je však třeba říci, že všechny tyto potíže jsou již většinou za námi. Nyní Gemini žádné problémy nemá a je jedním z nejúspěšnějších a nejoblíbenějších chatbotů na světě.