Gemini: Innovatív jellemzőinek és modelljeinek áttekintése

A Gemini a Google által kifejlesztett, mesterséges intelligencián alapuló chatbotok családja. Jelenleg a Gemini a piaci részesedést tekintve a harmadik helyen áll az összes chatbot között, csak a ChatGPT és a Microsoft Copilot mögött. Ugyanakkor a Gemini továbbra is gyorsabban növekszik, mint versenytársai, és folyamatosan növeli népszerűségét: az új felhasználók beáramlása tekintetében a 4. helyen áll, a jól ismert chatbotok közül csak a Claude növekszik gyorsabban. Ebben a cikkben a Gemini történetét, jelenlegi modelljeit, funkcióit és korlátait tekintjük át.

A Google Gemini rövid története

A Google úttörő szerepet játszott a nagy nyelvi modellek architektúrájában, és az ő robusztus kutatásaira támaszkodva fejlesztette ki saját mesterséges intelligencia modelljeit.

2017: A Google kutatói bemutatják a transzformátor architektúrát, amely számos mai nagy nyelvi modell alapját képezi.
2020: A vállalat bemutatja a Meena nevű, 2,6 milliárd paraméterrel rendelkező, neurális hálózaton alapuló chatbotot, amelyről a Google azt állítja, hogy felülmúlja az összes többi, akkoriban létező chatbotot.
2021: A Meena átnevezése LaMDA-ra (a Language Model for Dialogue Applications rövidítése), mivel adatai és számítási teljesítménye megnőtt.
2022: Megjelenik egy új nyelvi modell PaLM (Pathways Language Model) néven, amely a LaMDA-hoz képest fejlettebb képességekkel rendelkezik.
2023: Az év első negyedévében megjelenik a Google Bard nevű chatbot, amely mögött a LaMDA egy könnyített és optimalizált változata áll. Majd a második negyedévben bemutatják a PaLM 2-t, amely továbbfejlesztett kódolással, többnyelvű képességekkel és továbbfejlesztett érvelési képességekkel rendelkezik, amit aztán a Bard is átvesz. Végül az utolsó negyedévben a Google bejelentette a Gemini 1.0-t.
2024: A Google átnevezi a Bardot Gemini névre, és a multimodális mesterséges intelligenciamodelleket 1.5-ös verzióra frissíti. A Gemini 2.0 modelleket decemberben mutatják be.

2024 áprilisában a Google DeepMind vezérigazgatója, Demis Hassabis kijelenti, hogy idővel a vállalat több mint 100 milliárd dollárt költ majd a mesterséges intelligencia technológiájának fejlesztésére.

Demis Hassabis

A Gemini megkülönböztető jegyei

Minden chatbot korlátozott ismeretekkel rendelkezik a közelmúlt eseményeiről, mivel a képzési adatok csak egy véges időszakot ölelnek fel. A chatbotok kontextusában a határnap azt az időpontot jelenti, ameddig a modell az adatokon betanult és képes információt szolgáltatni. Ha például egy chatbotnak 2023 októbere a határideje, az azt jelenti, hogy minden tudás és adat, amelyhez hozzáfér, csak addig az időpontig aktuális. Az ezen időpont után bekövetkezett események, fejlemények vagy változások nem fognak tükröződni a chatbot válaszaiban. Ezt a korlátozást a felhasználóknak fontos megérteniük, mivel befolyásolja a szolgáltatott információk pontosságát és relevanciáját, különösen az olyan gyorsan változó területeken, mint a technológia, a politika vagy az aktuális események. A Gemini azonban képes megkerülni ezt a korlátozást azáltal, hogy a Google Search segítségével hozzáfér és feldolgozza az online keresésekből származó információkat, így naprakészebb válaszokat ad.

Következésképpen a felhasználóknak szükségük lehet a frissebb forrásokból származó információk ellenőrzésére, ha a legfrissebb frissítéseket vagy meglátásokat keresik. Néha a Gemini a válaszán belül és alatta is megjeleníti a forrásokat és a kapcsolódó tartalmakat. Ezek közé tartoznak a hasonló információkat tartalmazó webes források és linkek, amelyek segítségével mélyebbre áshat. Az Ikreket úgy tervezték, hogy eredeti tartalmat generáljon, de ha közvetlenül hosszan idéz egy weboldalról, akkor idézőjelet lát az idézett forrással és az oldalra mutató linket. A források és a kapcsolódó tartalom tartalmazhat olyan weboldalakat, amelyeket a Gemini idézett, vagy amelyek a válaszának egyes részeihez kapcsolódnak. Ha az Ikrek válasza egy webes kép miniatűr képét tartalmazza, akkor megjelenik a forrás és közvetlenül a képre mutató link.

A Geminit kezdettől fogva multimodálisra tervezték, ami azt jelenti, hogy többféle adattípuson képezték ki, és most már zökkenőmentesen tud különböző típusú tartalmakkal dolgozni. Ahogy a fenti képen is látható, a bot képes képeket is bevonni a válaszaiba. A Gemini megérti a szöveget, a hangot, a videofragmentumokat, a kézzel írt jegyzeteket, a grafikonokat, az ábrákat, képes azonosítani a tárgyakat a fotókon, és mindezek tetejébe képes képeket generálni az Imagen 3, a Google legfejlettebb szöveg-kép modelljének segítségével.

A chatbot széles körű többnyelvűséggel is rendelkezik, mivel 46 különböző nyelven érhető el.

A jelenlegi modellek, erősségeik és képességeik

A Gemini különböző modelleket kínál, amelyeket az egyes felhasználási esetekre optimalizáltak. Íme egy rövid áttekintés a rendelkezésre álló változatokról:

Modell	Bemenet	Kimenet	Leírás
Gemini 2.0 Flash	Hang, kép, videó és szöveg	Szöveg, képek (hamarosan) és hang (hamarosan)	Új generációs funkciók, sebesség és multimodális generálás a legkülönfélébb feladatokhoz
Gemini 2.0 Flash Thinking	Szöveg, képek	Szöveg	Továbbfejlesztett érvelési modell, amely kiemelkedik a természettudományokban és a matematikában
Gemini 1.5 Flash	Hang, kép, videó és szöveg	Szöveg	Gyors és sokoldalú teljesítmény a legkülönfélébb feladatok során
Gemini 1.5 Flash-8B	Hang, kép, videó és szöveg	Szöveg	Nagy volumenű és alacsonyabb intelligenciájú feladatok
Gemini 1.5 Pro	Hang, kép, videó és szöveg	Szöveg	Összetett érvelési feladatok, amelyek több intelligenciát igényelnek

A Gemini 1.5 Flash 1 millió, a Gemini 1.5 Pro pedig 2 millió tokent tartalmazó kontextusablakkal rendelkezik, ami a leghosszabb a nagy nyelvi modellek között.

Egy token körülbelül 4 karakterrel egyenértékű a Gemini modellek esetében. 100 token körülbelül 60-80 angol szónak felel meg.

A gyakorlatban 1 millió token így nézne ki:

Kódsor (a szabványos 80 karakteres soronkénti karakterszámmal).
Több mint 200 átlagos hosszúságú podcast epizód átirata.
8 átlagos hosszúságú angol regény.
Az összes szöveges üzenet, amelyet az elmúlt 5 évben küldött.

Gemini 1.5 Flash and Flash-8B
Bemeneti token limit	1,048,576
Kimeneti token limit	8,192
Képek maximális száma	3,600
Maximális videohossz	1 óra
Maximális hanghossz	Körülbelül 9,5 óra

A Gemini 1.5 Pro közel tökéletes visszahívást ér el a hosszú szövegkörnyezetű keresési feladatokban a különböző modalitásokban, lehetővé téve a hosszú dokumentumok, több ezer sornyi kód, több órányi hang, videó és egyéb anyagok pontos feldolgozását.

Gemini 1.5 Pro
Bemeneti token limit	2,097,152
Kimeneti token limit	8,192
Képek maximális száma	7,200
Maximális videohossz	2 óra
Maximális hanghossz	Körülbelül 19 óra

Minden kép 258 tokennek felel meg. Támogatott képtípusok:

PNG
WEBP
JPEG
HEIC
HEIF

Bár a modell kontextusablakán kívül nincsenek konkrét korlátok a kép pixeleinek számát illetően, a nagyobb képek maximális felbontása 3072x3072 pixelre méreteződik le, miközben megőrzi az eredeti képarányt, míg a kisebb képek 768x768 pixelre méreteződnek.

Látási képességek:

Képek feliratozása és a képekkel kapcsolatos kérdések megválaszolása.
PDF-ek átírása és érvelése, beleértve a hosszú dokumentumokat is, akár 2 millió token kontextusablakig.
Videók leírása, szegmentálása és információk kinyerése, beleértve a képkockákat és a hangot is, akár 90 perc hosszúságú videókból.

A Gemini képes helyesen felismerni az összes kézzel írott tartalmat és ellenőrizni az érvelést.

Gemini hangképességei:

Írja le, foglalja össze vagy válaszoljon a hanganyaggal kapcsolatos kérdésekre.
A hanganyag átiratának elkészítése.
Válaszok vagy átirat készítése a hanganyag egy adott szegmenséről.

Támogatott hangformátumok:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

Minden másodperc hanganyag 25 tokennek felel meg; például egy percnyi hanganyag 1500 tokennek felel meg.

Gemini 2.0 Flash
Bemeneti token limit	1,048,576
Kimeneti token limit	8,192

A Gemini 2.0 Flash a Gemini család legerősebb és legsokoldalúbb modellje. Képeket és beszédet is képes natívan létrehozni, és ha teljesítményről van szó, akkor szinte minden kulcsfontosságú összehasonlító mérési értéken felülmúlja a többi modellt. Győződjön meg róla saját maga.

Képesség	Benchmark	Leírás	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
Általános	MMLU-Pro	Értékeli, hogy a gépi tanulási modellek mennyire értik a természetes nyelvet	67.3%	75.8%	76.4%
Kód	Natural2Code	Kódgenerálás Python, Java, C++, C++, JS, Go nyelven	79.8%	85.4%	92.9%
Kód	Bird-SQL (Dev)	Értékeli a természetes nyelvi kérdések futtatható SQL-be történő átalakítását	45.6%	54.4%	56.9%
Tényszerűség	FACTS Grounding	Képesség a tényszerűség szempontjából helyes válaszok adására adott dokumentumok és különböző felhasználói kérések alapján	82.9%	80.0%	83.6%
Matematika	MATH	Kihívást jelentő matematikai feladatok (beleértve az algebrát, geometriát, előkalkulációt és egyebeket)	77.9%	86.5%	89.7%
Matematika	HiddenMath	Verseny szintű matematikai feladatok	47.2%	52.0%	63.0%
Érvelés	GPQA (diamond)	Biológia, fizika és kémia szakértői által írt kérdésekből álló, kihívást jelentő adathalmaz	51.0%	59.1%	62.1%
Kép	MMMU	Multidiszciplináris, főiskolai szintű multimodális megértési és érvelési feladatok	62.3%	65.9%	70.7%
Audio	CoVoST2 (21 lang)	Automatikus beszédfordítás	37.4	40.1	39.2
Videó	EgoSchema (test)	Videóelemzés	66.8%	71.2%	71.5%

A Gemini 2.0 Flash Thinking egyesíti a sebességet és a teljesítményt, és figyelemre méltó szakértelmet mutat a komplex matematikai és természettudományos problémák megoldásában. Az egymillió tokenes kontextusablak lehetővé teszi a hosszú szövegek mélyebb elemzését. A továbbfejlesztett gondolkodás nagyobb összhangot biztosít a gondolatok és a válaszok között.

Gemini 2.0 Flash Thinking
Bemeneti token limit	1,048,576
Kimeneti token limit	65,536

Vegye figyelembe a hatalmas kimeneti token ablakot. Ez lehetővé teszi a modell számára, hogy ne csak a hosszú kéréseket dolgozza fel, hanem kiterjedt válaszokat is adjon vissza, ami például nagy kódrészletek generálásakor jól jöhet.

Nézze meg, hogy a Gemini 2.0 Flash Thinking hogyan múlja felül a Gemini 1.5 Pro és a Gemini 2.0 modelleket matematikai, tudományos és multimodális gondolkodásban. Lehet, hogy általánosságban nem olyan sokoldalú, mint ez a két modell, de ezeken a speciális területeken a Gemini 2.0 Flash Thinking felülmúlhatatlan.

Matematika, tudomány és érvelés

Matematika és tudomány

Kritika

A Gemini chatbot nehezen indult, amikor 2023-ban megjelent. A fejlesztők túlságosan siettek a ChatGPT riválisának kiadásával. És ezért a chatbot kiadási verziója tele volt hibákkal. A felhasználók számos ténybeli hibára és pontatlanságra panaszkodtak a bot válaszaiban.

Az egyik leghangsúlyosabb a képgenerálással kapcsolatos vita volt. A Gemini igyekezett a lehető legnagyobb faji sokszínűséget bemutatni még ott is, ahol ez nem volt helyénvaló. A chatbot szerint így néztek ki a német katonák 1943-ban:

Német katonák 1943-ban a Gemini által generált

És így néztek ki az 1800-as évek amerikai szenátorai:

Az 1800-as évek amerikai szenátorai az Ikrek által generálva

A felhasználók elégedetlensége miatt a vállalat részvényei 4,5%-kal estek, ami nagyjából 90 millió dolláros veszteségnek felel meg. A fejlesztőknek ideiglenesen blokkolniuk kellett az emberekről készült képek generálásának lehetőségét is.

A képgenerálás körüli vitát követően egyes felhasználók a Gemini szöveges válaszait baloldali elfogultsággal kezdték vádolni. Az egyik ilyen példában a Gemini azt állította, hogy „nehéz határozottan megmondani”, hogy Elon Musknak vagy a náci diktátornak, Adolf Hitlernek volt-e nagyobb negatív hatása a társadalomra. Emellett más felhasználók megjegyezték, hogy Gemini úgy tűnt, hogy a baloldali politikusokat és olyan kérdéseket kedveli, mint a pozitív diszkrimináció és az abortuszjogok, míg a jobboldali figurákat, a húsfogyasztást és a fosszilis tüzelőanyagokat nem szívesen támogatja.

De azt kell mondani, hogy mindezek a nehézségek többnyire már a múlté. Most már az Ikreknek nincsenek problémái, és a világ egyik legsikeresebb és legnépszerűbb chatbotja.