Vissza a főoldalra

Gemini: Innovatív jellemzőinek és modelljeinek áttekintése

A Gemini a Google által kifejlesztett, mesterséges intelligencián alapuló chatbotok családja. Jelenleg a Gemini a piaci részesedést tekintve a harmadik helyen áll az összes chatbot között, csak a ChatGPT és a Microsoft Copilot mögött. Ugyanakkor a Gemini továbbra is gyorsabban növekszik, mint versenytársai, és folyamatosan növeli népszerűségét: az új felhasználók beáramlása tekintetében a 4. helyen áll, a jól ismert chatbotok közül csak a Claude növekszik gyorsabban. Ebben a cikkben a Gemini történetét, jelenlegi modelljeit, funkcióit és korlátait tekintjük át.

A Google Gemini rövid története

A Google úttörő szerepet játszott a nagy nyelvi modellek architektúrájában, és az ő robusztus kutatásaira támaszkodva fejlesztette ki saját mesterséges intelligencia modelljeit.

  • 2017: A Google kutatói bemutatják a transzformátor architektúrát, amely számos mai nagy nyelvi modell alapját képezi.
  • 2020: A vállalat bemutatja a Meena nevű, 2,6 milliárd paraméterrel rendelkező, neurális hálózaton alapuló chatbotot, amelyről a Google azt állítja, hogy felülmúlja az összes többi, akkoriban létező chatbotot.
  • 2021: A Meena átnevezése LaMDA-ra (a Language Model for Dialogue Applications rövidítése), mivel adatai és számítási teljesítménye megnőtt.
  • 2022: Megjelenik egy új nyelvi modell PaLM (Pathways Language Model) néven, amely a LaMDA-hoz képest fejlettebb képességekkel rendelkezik.
  • 2023: Az év első negyedévében megjelenik a Google Bard nevű chatbot, amely mögött a LaMDA egy könnyített és optimalizált változata áll. Majd a második negyedévben bemutatják a PaLM 2-t, amely továbbfejlesztett kódolással, többnyelvű képességekkel és továbbfejlesztett érvelési képességekkel rendelkezik, amit aztán a Bard is átvesz. Végül az utolsó negyedévben a Google bejelentette a Gemini 1.0-t.
  • 2024: A Google átnevezi a Bardot Gemini névre, és a multimodális mesterséges intelligenciamodelleket 1.5-ös verzióra frissíti. A Gemini 2.0 modelleket decemberben mutatják be.

2024 áprilisában a Google DeepMind vezérigazgatója, Demis Hassabis kijelenti, hogy idővel a vállalat több mint 100 milliárd dollárt költ majd a mesterséges intelligencia technológiájának fejlesztésére.

Demis Hassabis

Demis Hassabis

A Gemini megkülönböztető jegyei

Minden chatbot korlátozott ismeretekkel rendelkezik a közelmúlt eseményeiről, mivel a képzési adatok csak egy véges időszakot ölelnek fel. A chatbotok kontextusában a határnap azt az időpontot jelenti, ameddig a modell az adatokon betanult és képes információt szolgáltatni. Ha például egy chatbotnak 2023 októbere a határideje, az azt jelenti, hogy minden tudás és adat, amelyhez hozzáfér, csak addig az időpontig aktuális. Az ezen időpont után bekövetkezett események, fejlemények vagy változások nem fognak tükröződni a chatbot válaszaiban. Ezt a korlátozást a felhasználóknak fontos megérteniük, mivel befolyásolja a szolgáltatott információk pontosságát és relevanciáját, különösen az olyan gyorsan változó területeken, mint a technológia, a politika vagy az aktuális események. A Gemini azonban képes megkerülni ezt a korlátozást azáltal, hogy a Google Search segítségével hozzáfér és feldolgozza az online keresésekből származó információkat, így naprakészebb válaszokat ad.

Következésképpen a felhasználóknak szükségük lehet a frissebb forrásokból származó információk ellenőrzésére, ha a legfrissebb frissítéseket vagy meglátásokat keresik. Néha a Gemini a válaszán belül és alatta is megjeleníti a forrásokat és a kapcsolódó tartalmakat. Ezek közé tartoznak a hasonló információkat tartalmazó webes források és linkek, amelyek segítségével mélyebbre áshat. Az Ikreket úgy tervezték, hogy eredeti tartalmat generáljon, de ha közvetlenül hosszan idéz egy weboldalról, akkor idézőjelet lát az idézett forrással és az oldalra mutató linket. A források és a kapcsolódó tartalom tartalmazhat olyan weboldalakat, amelyeket a Gemini idézett, vagy amelyek a válaszának egyes részeihez kapcsolódnak. Ha az Ikrek válasza egy webes kép miniatűr képét tartalmazza, akkor megjelenik a forrás és közvetlenül a képre mutató link.

A Gemini képeket mutat New Yorkról

A Geminit kezdettől fogva multimodálisra tervezték, ami azt jelenti, hogy többféle adattípuson képezték ki, és most már zökkenőmentesen tud különböző típusú tartalmakkal dolgozni. Ahogy a fenti képen is látható, a bot képes képeket is bevonni a válaszaiba. A Gemini megérti a szöveget, a hangot, a videofragmentumokat, a kézzel írt jegyzeteket, a grafikonokat, az ábrákat, képes azonosítani a tárgyakat a fotókon, és mindezek tetejébe képes képeket generálni az Imagen 3, a Google legfejlettebb szöveg-kép modelljének segítségével.

A chatbot széles körű többnyelvűséggel is rendelkezik, mivel 46 különböző nyelven érhető el.

A jelenlegi modellek, erősségeik és képességeik

A Gemini különböző modelleket kínál, amelyeket az egyes felhasználási esetekre optimalizáltak. Íme egy rövid áttekintés a rendelkezésre álló változatokról:

ModellBemenetKimenetLeírás

Gemini 2.0 Flash

Hang, kép, videó és szövegSzöveg, képek (hamarosan) és hang (hamarosan)Új generációs funkciók, sebesség és multimodális generálás a legkülönfélébb feladatokhoz

Gemini 2.0 Flash Thinking

Szöveg, képekSzövegTovábbfejlesztett érvelési modell, amely kiemelkedik a természettudományokban és a matematikában

Gemini 1.5 Flash

Hang, kép, videó és szövegSzövegGyors és sokoldalú teljesítmény a legkülönfélébb feladatok során

Gemini 1.5 Flash-8B

Hang, kép, videó és szövegSzövegNagy volumenű és alacsonyabb intelligenciájú feladatok

Gemini 1.5 Pro

Hang, kép, videó és szövegSzövegÖsszetett érvelési feladatok, amelyek több intelligenciát igényelnek

A Gemini 1.5 Flash 1 millió, a Gemini 1.5 Pro pedig 2 millió tokent tartalmazó kontextusablakkal rendelkezik, ami a leghosszabb a nagy nyelvi modellek között.

Egy token körülbelül 4 karakterrel egyenértékű a Gemini modellek esetében. 100 token körülbelül 60-80 angol szónak felel meg.

A gyakorlatban 1 millió token így nézne ki:

  • Kódsor (a szabványos 80 karakteres soronkénti karakterszámmal).
  • Több mint 200 átlagos hosszúságú podcast epizód átirata.
  • 8 átlagos hosszúságú angol regény.
  • Az összes szöveges üzenet, amelyet az elmúlt 5 évben küldött.

Gemini 1.5 Flash and Flash-8B

Bemeneti token limit1,048,576
Kimeneti token limit8,192
Képek maximális száma3,600
Maximális videohossz1 óra
Maximális hanghosszKörülbelül 9,5 óra

A Gemini 1.5 Pro közel tökéletes visszahívást ér el a hosszú szövegkörnyezetű keresési feladatokban a különböző modalitásokban, lehetővé téve a hosszú dokumentumok, több ezer sornyi kód, több órányi hang, videó és egyéb anyagok pontos feldolgozását.

Gemini 1.5 Pro

Bemeneti token limit2,097,152
Kimeneti token limit8,192
Képek maximális száma7,200
Maximális videohossz2 óra
Maximális hanghosszKörülbelül 19 óra

Minden kép 258 tokennek felel meg. Támogatott képtípusok:

  • PNG
  • WEBP
  • JPEG
  • HEIC
  • HEIF

Bár a modell kontextusablakán kívül nincsenek konkrét korlátok a kép pixeleinek számát illetően, a nagyobb képek maximális felbontása 3072x3072 pixelre méreteződik le, miközben megőrzi az eredeti képarányt, míg a kisebb képek 768x768 pixelre méreteződnek.

Látási képességek:

  • Képek feliratozása és a képekkel kapcsolatos kérdések megválaszolása.
  • PDF-ek átírása és érvelése, beleértve a hosszú dokumentumokat is, akár 2 millió token kontextusablakig.
  • Videók leírása, szegmentálása és információk kinyerése, beleértve a képkockákat és a hangot is, akár 90 perc hosszúságú videókból.
A Gemini képes helyesen felismerni az összes kézzel írott tartalmat és ellenőrizni az érvelést.

A Gemini képes helyesen felismerni az összes kézzel írott tartalmat és ellenőrizni az érvelést.

Gemini hangképességei:

  • Írja le, foglalja össze vagy válaszoljon a hanganyaggal kapcsolatos kérdésekre.
  • A hanganyag átiratának elkészítése.
  • Válaszok vagy átirat készítése a hanganyag egy adott szegmenséről.

Támogatott hangformátumok:

  • WAV
  • MP3
  • FLAC
  • OGG Vorbis
  • AIFF
  • AAC

Minden másodperc hanganyag 25 tokennek felel meg; például egy percnyi hanganyag 1500 tokennek felel meg.

Gemini 2.0 Flash

Bemeneti token limit1,048,576
Kimeneti token limit8,192

A Gemini 2.0 Flash a Gemini család legerősebb és legsokoldalúbb modellje. Képeket és beszédet is képes natívan létrehozni, és ha teljesítményről van szó, akkor szinte minden kulcsfontosságú összehasonlító mérési értéken felülmúlja a többi modellt. Győződjön meg róla saját maga.

KépességBenchmarkLeírásGemini 1.5 FlashGemini 1.5 ProGemini 2.0 Flash
ÁltalánosMMLU-ProÉrtékeli, hogy a gépi tanulási modellek mennyire értik a természetes nyelvet67.3%75.8%76.4%
KódNatural2CodeKódgenerálás Python, Java, C++, C++, JS, Go nyelven79.8%85.4%92.9%
KódBird-SQL (Dev)Értékeli a természetes nyelvi kérdések futtatható SQL-be történő átalakítását45.6%54.4%56.9%
TényszerűségFACTS GroundingKépesség a tényszerűség szempontjából helyes válaszok adására adott dokumentumok és különböző felhasználói kérések alapján82.9%80.0%83.6%
MatematikaMATHKihívást jelentő matematikai feladatok (beleértve az algebrát, geometriát, előkalkulációt és egyebeket)77.9%86.5%89.7%
MatematikaHiddenMathVerseny szintű matematikai feladatok47.2%52.0%63.0%
ÉrvelésGPQA (diamond)Biológia, fizika és kémia szakértői által írt kérdésekből álló, kihívást jelentő adathalmaz51.0%59.1%62.1%
KépMMMUMultidiszciplináris, főiskolai szintű multimodális megértési és érvelési feladatok62.3%65.9%70.7%
AudioCoVoST2 (21 lang)Automatikus beszédfordítás37.440.139.2
VideóEgoSchema (test)Videóelemzés66.8%71.2%71.5%

A Gemini 2.0 Flash Thinking egyesíti a sebességet és a teljesítményt, és figyelemre méltó szakértelmet mutat a komplex matematikai és természettudományos problémák megoldásában. Az egymillió tokenes kontextusablak lehetővé teszi a hosszú szövegek mélyebb elemzését. A továbbfejlesztett gondolkodás nagyobb összhangot biztosít a gondolatok és a válaszok között.

Gemini 2.0 Flash Thinking

Bemeneti token limit1,048,576
Kimeneti token limit65,536

Vegye figyelembe a hatalmas kimeneti token ablakot. Ez lehetővé teszi a modell számára, hogy ne csak a hosszú kéréseket dolgozza fel, hanem kiterjedt válaszokat is adjon vissza, ami például nagy kódrészletek generálásakor jól jöhet.

Nézze meg, hogy a Gemini 2.0 Flash Thinking hogyan múlja felül a Gemini 1.5 Pro és a Gemini 2.0 modelleket matematikai, tudományos és multimodális gondolkodásban. Lehet, hogy általánosságban nem olyan sokoldalú, mint ez a két modell, de ezeken a speciális területeken a Gemini 2.0 Flash Thinking felülmúlhatatlan.

Matematika, tudomány és érvelés

Matematika, tudomány és érvelés

Matematika és tudomány

Matematika és tudomány

Kritika

A Gemini chatbot nehezen indult, amikor 2023-ban megjelent. A fejlesztők túlságosan siettek a ChatGPT riválisának kiadásával. És ezért a chatbot kiadási verziója tele volt hibákkal. A felhasználók számos ténybeli hibára és pontatlanságra panaszkodtak a bot válaszaiban.

Az egyik leghangsúlyosabb a képgenerálással kapcsolatos vita volt. A Gemini igyekezett a lehető legnagyobb faji sokszínűséget bemutatni még ott is, ahol ez nem volt helyénvaló. A chatbot szerint így néztek ki a német katonák 1943-ban:

Német katonák 1943-ban a Gemini által generált

És így néztek ki az 1800-as évek amerikai szenátorai:

Az 1800-as évek amerikai szenátorai az Ikrek által generálva

A felhasználók elégedetlensége miatt a vállalat részvényei 4,5%-kal estek, ami nagyjából 90 millió dolláros veszteségnek felel meg. A fejlesztőknek ideiglenesen blokkolniuk kellett az emberekről készült képek generálásának lehetőségét is.

A képgenerálás körüli vitát követően egyes felhasználók a Gemini szöveges válaszait baloldali elfogultsággal kezdték vádolni. Az egyik ilyen példában a Gemini azt állította, hogy „nehéz határozottan megmondani”, hogy Elon Musknak vagy a náci diktátornak, Adolf Hitlernek volt-e nagyobb negatív hatása a társadalomra. Emellett más felhasználók megjegyezték, hogy Gemini úgy tűnt, hogy a baloldali politikusokat és olyan kérdéseket kedveli, mint a pozitív diszkrimináció és az abortuszjogok, míg a jobboldali figurákat, a húsfogyasztást és a fosszilis tüzelőanyagokat nem szívesen támogatja.

De azt kell mondani, hogy mindezek a nehézségek többnyire már a múlté. Most már az Ikreknek nincsenek problémái, és a világ egyik legsikeresebb és legnépszerűbb chatbotja.