Gemini: pregled inovativnih funkcij in modelov
Gemini je družina klepetalnih robotov, ki temelji na umetni inteligenci in jo je razvil Google. Trenutno je Gemini po tržnem deležu na tretjem mestu med vsemi klepetalnimi roboti, za ChatGPT in Microsoftovim Copilotom. Hkrati Gemini še naprej raste hitreje od svojih tekmecev in vztrajno pridobiva na priljubljenosti: po prilivu novih uporabnikov je na četrtem mestu, med znanimi klepetalnimi roboti pa hitreje raste le Claude. V tem članku si bomo ogledali zgodovino podjetja Gemini, trenutne modele, njihove značilnosti in omejitve.
Kratka zgodovina Googlovega Geminija
Google je bil pionir na področju arhitekture velikih jezikovnih modelov in se pri razvoju lastnih modelov umetne inteligence opira na svoje temeljite raziskave.
- 2017: Googlovi raziskovalci predstavijo arhitekturo transformatorja, na kateri temeljijo številni današnji veliki jezikovni modeli.
- 2020: Podjetje predstavi Meeno, klepetalnega robota na osnovi nevronske mreže z 2,6 milijarde parametrov, za katerega je Google trdil, da je boljši od vseh drugih takrat obstoječih klepetalnih robotov.
- 2021: Meena se preimenuje v LaMDA (kratica za Language Model for Dialogue Applications), saj se je povečala njegova podatkovna in računalniška moč.
- 2022: Objavljen je nov jezikovni model, imenovan PaLM (Pathways Language Model), ki ima v primerjavi z LaMDA naprednejše zmogljivosti.
- 2023: V prvem četrtletju leta je izdan klepetalni robot Google Bard, ki ga podpira lahka in optimizirana različica LaMDA. Nato v drugem četrtletju predstavijo PaLM 2 z izboljšanim kodiranjem, večjezičnimi zmogljivostmi in izboljšanimi sposobnostmi sklepanja, ki jih nato prevzame Bard. V zadnjem četrtletju je Google objavil različico Gemini 1.0.
- 2024: Google preimenuje Barda v Gemini in svoje večmodalne modele umetne inteligence nadgradi v različico 1.5. Decembra so predstavljeni modeli Gemini 2.0.
Aprila 2024 izvršni direktor Googlove družbe DeepMind Demis Hassabis izjavi, da bo podjetje sčasoma porabilo več kot 100 milijard dolarjev za razvoj tehnologije umetne inteligence.

Demis Hassabis
Značilnosti Gemini
Vsak klepetalni robot ima omejeno znanje o nedavnih dogodkih, saj njegovi učni podatki zajemajo le omejeno časovno obdobje. Mejni datum v kontekstu klepetalnih robotov se nanaša na časovno točko, do katere je bil model usposobljen na podatkih in lahko zagotavlja informacije. Če ima na primer klepetalni robot mejni datum oktober 2023, to pomeni, da so vse znanje in podatki, do katerih ima dostop, aktualni le do tega datuma. Vsi dogodki, razvoj ali spremembe, ki so se zgodili po tem datumu, se ne bodo odrazili v odzivih klepetalnega robota. To omejitev morajo uporabniki razumeti, saj vpliva na točnost in ustreznost posredovanih informacij, zlasti na hitro spreminjajočih se področjih, kot so tehnologija, politika ali aktualni dogodki. Vendar lahko Gemini to omejitev zaobide z dostopom in obdelavo informacij iz spletnih iskanj prek iskalnika Google in tako zagotovi bolj aktualne odgovore.
Posledično bodo uporabniki morda morali preveriti informacije iz novejših virov, če iščejo najnovejše posodobitve ali vpoglede. Včasih vam Gemini prikaže vire in povezane vsebine znotraj in pod svojim odgovorom. Te vključujejo spletne vire s podobnimi informacijami in povezavami, da se lahko poglobite vanje. Gemini je zasnovan tako, da ustvarja izvirno vsebino, če pa neposredno in na dolgo citira spletno stran, boste videli narekovaj z navedenim virom in povezavo do te strani. Viri in povezana vsebina lahko vključujejo spletne strani, ki jih je Gemini citiral ali se nanašajo na dele njegovega odgovora. Če Geminijev odgovor vključuje sličico slike s spleta, bo prikazan vir in navedena neposredna povezava do njega.

Gemini je bil že od samega začetka zasnovan multimodalno, kar pomeni, da je bil usposobljen za več vrst podatkov, zdaj pa lahko nemoteno deluje z različnimi vrstami vsebine. Kot lahko vidite na zgornji sliki, lahko bot v svoje odgovore vključuje slike. Gemini lahko razume besedilo, zvok, video odlomke, rokopisne zapiske, grafe, diagrame, prepozna predmete na fotografijah in poleg tega lahko ustvarja slike z uporabo Imagena 3, Googlovega najnaprednejšega modela za pretvorbo besedila v sliko.
Klepetalni robot ima tudi široke večjezične zmogljivosti, saj je na voljo v 46 različnih jezikih.
Trenutni modeli, njihove prednosti in zmogljivosti
Gemini ponuja različne modele, ki so optimizirani za posebne primere uporabe. Tukaj je kratek pregled različic, ki so na voljo:
Model | Vhod | Izhod | Opis |
Gemini 2.0 Flash | Zvok, slike, videoposnetki in besedilo | Besedilo, slike (kmalu) in zvok (kmalu) | Next generation features, speed, and multimodal generation for a diverse variety of tasks |
Gemini 2.0 Flash Thinking | Besedilo, slike | Besedilo | Enhanced reasoning model that excels in science and math |
Gemini 1.5 Flash | Zvok, slike, videoposnetki in besedilo | Besedilo | Fast and versatile performance across a diverse variety of tasks |
Gemini 1.5 Flash-8B | Zvok, slike, videoposnetki in besedilo | Besedilo | High volume and lower intelligence tasks |
Gemini 1.5 Pro | Zvok, slike, videoposnetki in besedilo | Besedilo | Complex reasoning tasks requiring more intelligence |
Gemini 1.5 Flash ima kontekstno okno z 1 milijonom tokenov, Gemini 1.5 Pro pa ima kontekstno okno z 2 milijonoma tokenov, ki je najdaljše med vsemi velikimi jezikovnimi modeli.
En token je enakovreden približno 4 znakom za modele Gemini. 100 tokenov je približno 60-80 angleških besed.
V praksi bi bilo 1 milijon tokenov videti takole:
- 50.000 vrstic kode (s standardnimi 80 znaki na vrstico).
- Prepisi več kot 200 povprečno dolgih epizod podkasta.
- 8 povprečno dolgih angleških romanov.
- Vsa besedilna sporočila, ki ste jih poslali v zadnjih petih letih.
Gemini 1.5 Flash and Flash-8B | |
| Omejitev vhodnih tokenov | 1,048,576 |
| Omejitev izhodnih tokenov | 8,192 |
| Največje število slik | 3,600 |
| Največja dolžina videoposnetka | 1 ura |
| Največja dolžina zvoka | Približno 9,5 ure |
Gemini 1.5 Pro dosega skoraj popoln priklic pri nalogah iskanja dolgega konteksta v različnih modalitetah, kar omogoča natančno obdelavo dolgih dokumentov, na tisoče vrstic kode, ur zvoka, videoposnetkov in še več.
Gemini 1.5 Pro | |
| Omejitev vhodnih tokenov | 2,097,152 |
| Omejitev izhodnih tokenov | 8,192 |
| Največje število slik | 7,200 |
| Največja dolžina videoposnetka | 2 uri |
| Največja dolžina zvoka | Približno 19 ur |
Vsaka slika je enakovredna 258 tokenom. Podprte vrste slik:
- PNG
- WEBP
- JPEG
- HEIC
- HEIF
Čeprav poleg kontekstnega okna modela ni posebnih omejitev števila slikovnih pik v sliki, se večje slike pomanjšajo na največjo ločljivost 3072x3072, pri čemer se ohrani njihovo prvotno razmerje stranic, manjše slike pa se pomanjšajo na 768x768 slikovnih pik.
Zmogljivosti vida:
- Podpisujte slike in odgovarjajte na vprašanja o njih.
- Prepisujte in utemeljujte dokumente PDF, vključno z dolgimi dokumenti do 2 milijona tokenov v kontekstu.
- Opisujte, segmentirajte in pridobivajte informacije iz videoposnetkov, vključno z vizualnimi kadri in zvokom, ki so dolgi do 90 minut.

Gemini lahko pravilno prepozna vso ročno napisano vsebino in preveri utemeljitev.
Geminijeve zvočne zmogljivosti:
- Opišite, povzemite ali odgovorite na vprašanja o zvočni vsebini.
- Zagotovite prepis zvočnega posnetka.
- Zagotovite odgovore ali prepis o določenem segmentu zvočnega posnetka.
Podprti zvočni formati:
- WAV
- MP3
- FLAC
- OGG Vorbis
- AIFF
- AAC
Vsaka sekunda zvočnega posnetka je enakovredna 25 tokenom; na primer, minuta zvočnega posnetka je predstavljena kot 1 500 tokenov.
Gemini 2.0 Flash | |
| Omejitev vhodnih tokenov | 1,048,576 |
| Omejitev izhodnih tokenov | 8,192 |
Gemini 2.0 Flash je najzmogljivejši in najbolj vsestranski model družine Gemini. Nativno lahko ustvarja slike in ustvarja govor, glede zmogljivosti pa prekaša druge modele v skoraj vseh ključnih primerjalnih testih. Prepričajte se sami.
| Sposobnost | Benchmark | Description | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 2.0 Flash |
| Splošno | MMLU-Pro | Ocenjuje, kako dobro modeli strojnega učenja razumejo naravni jezik | 67.3% | 75.8% | 76.4% |
| Koda | Natural2Code | Ustvarjanje kode v jezikih Python, Java, C++, JS, Go | 79.8% | 85.4% | 92.9% |
| Koda | Bird-SQL (Dev) | Ocenjuje pretvorbo vprašanj naravnega jezika v izvedljiv SQL | 45.6% | 54.4% | 56.9% |
| Dejstvenost | FACTS Grounding | Sposobnost zagotavljanja vsebinsko pravilnih odgovorov glede na dokumente in različne zahteve uporabnikov | 82.9% | 80.0% | 83.6% |
| Matematika | MATH | Zahtevne matematične naloge (vključno z algebro, geometrijo, predračunom in drugimi) | 77.9% | 86.5% | 89.7% |
| Matematika | HiddenMath | Matematični problemi na tekmovalni ravni | 47.2% | 52.0% | 63.0% |
| Razmišljanje | GPQA (diamond) | Zahtevna zbirka podatkov z vprašanji, ki so jih napisali strokovnjaki s področja biologije, fizike in kemije | 51.0% | 59.1% | 62.1% |
| Slika | MMMU | Večdisciplinarni problemi večmodalnega razumevanja in sklepanja na univerzitetni ravni | 62.3% | 65.9% | 70.7% |
| Audio | CoVoST2 (21 lang) | Samodejno prevajanje govora | 37.4 | 40.1 | 39.2 |
| Video | EgoSchema (test) | Analiza videoposnetkov | 66.8% | 71.2% | 71.5% |
Gemini 2.0 Flash Thinking združuje hitrost in zmogljivost ter izkazuje izjemno strokovno znanje pri reševanju zapletenih matematičnih in naravoslovnih problemov. Kontekstno okno z enim milijonom tokenov omogoča poglobljeno analizo dolgih besedil. Izboljšano razmišljanje zagotavlja večjo skladnost med mislimi in odgovori.
Gemini 2.0 Flash Thinking | |
| Omejitev vhodnih tokenov | 1,048,576 |
| Omejitev izhodnih tokenov | 65,536 |
Upoštevajte ogromno okno izhodnega tokena. To modelu omogoča ne le obdelavo dolgih zahtev, temveč tudi vračanje obsežnih odgovorov, kar lahko pride prav na primer pri generiranju velikih kosov kode.
Oglejte si, kako Gemini 2.0 Flash Thinking prekaša Gemini 1.5 Pro in Gemini 2.0 pri matematiki, naravoslovju in multimodalnem sklepanju. Morda na splošno ni tako vsestranski kot ta dva modela, vendar je na teh posebnih področjih Gemini 2.0 Flash Thinking neprimerljiv.

Matematika, naravoslovje in razmišljanje

Matematika in naravoslovje
Kritika
Klepetalni robot Gemini je imel težak začetek, ko je bil leta 2023 izdan. Razvijalcem se je preveč mudilo, da bi izdali tekmeca ChatGPT. Zato je bila različica klepetalnega robota, ki so jo izdali, polna hroščev. Uporabniki so se pritoževali zaradi številnih stvarnih napak in netočnosti v odgovorih bota.
Ena izmed najbolj odmevnih je bila polemika glede ustvarjanja slik. Gemini je poskušal predstaviti čim večjo rasno raznolikost tudi tam, kjer to ni bilo primerno. Po mnenju klepetalnega robota so bili tako videti nemški vojaki leta 1943:

Tako so bili videti ameriški senatorji iz 19. stoletja:

Zaradi nezadovoljstva uporabnikov so delnice podjetja padle za 4,5 %, kar približno ustreza izgubi v višini 90 milijonov dolarjev. Razvijalci so morali tudi začasno blokirati možnost ustvarjanja slik ljudi.
Po sporu v zvezi z ustvarjanjem podob so nekateri uporabniki začeli obtoževati Geminijeve besedilne odgovore, da so pristranski do levice. V enem od takih primerov je Gemini navedel, da je „težko dokončno reči“, ali ima večji negativni vpliv na družbo Elon Musk ali nacistični diktator Adolf Hitler. Poleg tega so drugi uporabniki opazili, da je Gemini očitno naklonjen levičarskim politikom in vprašanjem, kot so pozitivna diskriminacija in pravica do splava, medtem ko ne želi podpirati desničarskih osebnosti, uživanja mesa in fosilnih goriv.
Vendar je treba povedati, da so vse te težave večinoma že za nami. Zdaj Gemini nima nobenih težav in je eden najuspešnejših in najbolj priljubljenih klepetalnih robotov na svetu.