Gemini: pregled inovativnih funkcij in modelov

Gemini je družina klepetalnih robotov, ki temelji na umetni inteligenci in jo je razvil Google. Trenutno je Gemini po tržnem deležu na tretjem mestu med vsemi klepetalnimi roboti, za ChatGPT in Microsoftovim Copilotom. Hkrati Gemini še naprej raste hitreje od svojih tekmecev in vztrajno pridobiva na priljubljenosti: po prilivu novih uporabnikov je na četrtem mestu, med znanimi klepetalnimi roboti pa hitreje raste le Claude. V tem članku si bomo ogledali zgodovino podjetja Gemini, trenutne modele, njihove značilnosti in omejitve.

Kratka zgodovina Googlovega Geminija

Google je bil pionir na področju arhitekture velikih jezikovnih modelov in se pri razvoju lastnih modelov umetne inteligence opira na svoje temeljite raziskave.

2017: Googlovi raziskovalci predstavijo arhitekturo transformatorja, na kateri temeljijo številni današnji veliki jezikovni modeli.
2020: Podjetje predstavi Meeno, klepetalnega robota na osnovi nevronske mreže z 2,6 milijarde parametrov, za katerega je Google trdil, da je boljši od vseh drugih takrat obstoječih klepetalnih robotov.
2021: Meena se preimenuje v LaMDA (kratica za Language Model for Dialogue Applications), saj se je povečala njegova podatkovna in računalniška moč.
2022: Objavljen je nov jezikovni model, imenovan PaLM (Pathways Language Model), ki ima v primerjavi z LaMDA naprednejše zmogljivosti.
2023: V prvem četrtletju leta je izdan klepetalni robot Google Bard, ki ga podpira lahka in optimizirana različica LaMDA. Nato v drugem četrtletju predstavijo PaLM 2 z izboljšanim kodiranjem, večjezičnimi zmogljivostmi in izboljšanimi sposobnostmi sklepanja, ki jih nato prevzame Bard. V zadnjem četrtletju je Google objavil različico Gemini 1.0.
2024: Google preimenuje Barda v Gemini in svoje večmodalne modele umetne inteligence nadgradi v različico 1.5. Decembra so predstavljeni modeli Gemini 2.0.

Aprila 2024 izvršni direktor Googlove družbe DeepMind Demis Hassabis izjavi, da bo podjetje sčasoma porabilo več kot 100 milijard dolarjev za razvoj tehnologije umetne inteligence.

Demis Hassabis

Značilnosti Gemini

Vsak klepetalni robot ima omejeno znanje o nedavnih dogodkih, saj njegovi učni podatki zajemajo le omejeno časovno obdobje. Mejni datum v kontekstu klepetalnih robotov se nanaša na časovno točko, do katere je bil model usposobljen na podatkih in lahko zagotavlja informacije. Če ima na primer klepetalni robot mejni datum oktober 2023, to pomeni, da so vse znanje in podatki, do katerih ima dostop, aktualni le do tega datuma. Vsi dogodki, razvoj ali spremembe, ki so se zgodili po tem datumu, se ne bodo odrazili v odzivih klepetalnega robota. To omejitev morajo uporabniki razumeti, saj vpliva na točnost in ustreznost posredovanih informacij, zlasti na hitro spreminjajočih se področjih, kot so tehnologija, politika ali aktualni dogodki. Vendar lahko Gemini to omejitev zaobide z dostopom in obdelavo informacij iz spletnih iskanj prek iskalnika Google in tako zagotovi bolj aktualne odgovore.

Posledično bodo uporabniki morda morali preveriti informacije iz novejših virov, če iščejo najnovejše posodobitve ali vpoglede. Včasih vam Gemini prikaže vire in povezane vsebine znotraj in pod svojim odgovorom. Te vključujejo spletne vire s podobnimi informacijami in povezavami, da se lahko poglobite vanje. Gemini je zasnovan tako, da ustvarja izvirno vsebino, če pa neposredno in na dolgo citira spletno stran, boste videli narekovaj z navedenim virom in povezavo do te strani. Viri in povezana vsebina lahko vključujejo spletne strani, ki jih je Gemini citiral ali se nanašajo na dele njegovega odgovora. Če Geminijev odgovor vključuje sličico slike s spleta, bo prikazan vir in navedena neposredna povezava do njega.

Gemini je bil že od samega začetka zasnovan multimodalno, kar pomeni, da je bil usposobljen za več vrst podatkov, zdaj pa lahko nemoteno deluje z različnimi vrstami vsebine. Kot lahko vidite na zgornji sliki, lahko bot v svoje odgovore vključuje slike. Gemini lahko razume besedilo, zvok, video odlomke, rokopisne zapiske, grafe, diagrame, prepozna predmete na fotografijah in poleg tega lahko ustvarja slike z uporabo Imagena 3, Googlovega najnaprednejšega modela za pretvorbo besedila v sliko.

Klepetalni robot ima tudi široke večjezične zmogljivosti, saj je na voljo v 46 različnih jezikih.

Trenutni modeli, njihove prednosti in zmogljivosti

Gemini ponuja različne modele, ki so optimizirani za posebne primere uporabe. Tukaj je kratek pregled različic, ki so na voljo:

Model	Vhod	Izhod	Opis
Gemini 2.0 Flash	Zvok, slike, videoposnetki in besedilo	Besedilo, slike (kmalu) in zvok (kmalu)	Next generation features, speed, and multimodal generation for a diverse variety of tasks
Gemini 2.0 Flash Thinking	Besedilo, slike	Besedilo	Enhanced reasoning model that excels in science and math
Gemini 1.5 Flash	Zvok, slike, videoposnetki in besedilo	Besedilo	Fast and versatile performance across a diverse variety of tasks
Gemini 1.5 Flash-8B	Zvok, slike, videoposnetki in besedilo	Besedilo	High volume and lower intelligence tasks
Gemini 1.5 Pro	Zvok, slike, videoposnetki in besedilo	Besedilo	Complex reasoning tasks requiring more intelligence

Gemini 1.5 Flash ima kontekstno okno z 1 milijonom tokenov, Gemini 1.5 Pro pa ima kontekstno okno z 2 milijonoma tokenov, ki je najdaljše med vsemi velikimi jezikovnimi modeli.

En token je enakovreden približno 4 znakom za modele Gemini. 100 tokenov je približno 60-80 angleških besed.

V praksi bi bilo 1 milijon tokenov videti takole:

50.000 vrstic kode (s standardnimi 80 znaki na vrstico).
Prepisi več kot 200 povprečno dolgih epizod podkasta.
8 povprečno dolgih angleških romanov.
Vsa besedilna sporočila, ki ste jih poslali v zadnjih petih letih.

Gemini 1.5 Flash and Flash-8B
Omejitev vhodnih tokenov	1,048,576
Omejitev izhodnih tokenov	8,192
Največje število slik	3,600
Največja dolžina videoposnetka	1 ura
Največja dolžina zvoka	Približno 9,5 ure

Gemini 1.5 Pro dosega skoraj popoln priklic pri nalogah iskanja dolgega konteksta v različnih modalitetah, kar omogoča natančno obdelavo dolgih dokumentov, na tisoče vrstic kode, ur zvoka, videoposnetkov in še več.

Gemini 1.5 Pro
Omejitev vhodnih tokenov	2,097,152
Omejitev izhodnih tokenov	8,192
Največje število slik	7,200
Največja dolžina videoposnetka	2 uri
Največja dolžina zvoka	Približno 19 ur

Vsaka slika je enakovredna 258 tokenom. Podprte vrste slik:

PNG
WEBP
JPEG
HEIC
HEIF

Čeprav poleg kontekstnega okna modela ni posebnih omejitev števila slikovnih pik v sliki, se večje slike pomanjšajo na največjo ločljivost 3072x3072, pri čemer se ohrani njihovo prvotno razmerje stranic, manjše slike pa se pomanjšajo na 768x768 slikovnih pik.

Zmogljivosti vida:

Podpisujte slike in odgovarjajte na vprašanja o njih.
Prepisujte in utemeljujte dokumente PDF, vključno z dolgimi dokumenti do 2 milijona tokenov v kontekstu.
Opisujte, segmentirajte in pridobivajte informacije iz videoposnetkov, vključno z vizualnimi kadri in zvokom, ki so dolgi do 90 minut.

Gemini lahko pravilno prepozna vso ročno napisano vsebino in preveri utemeljitev.

Geminijeve zvočne zmogljivosti:

Opišite, povzemite ali odgovorite na vprašanja o zvočni vsebini.
Zagotovite prepis zvočnega posnetka.
Zagotovite odgovore ali prepis o določenem segmentu zvočnega posnetka.

Podprti zvočni formati:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

Vsaka sekunda zvočnega posnetka je enakovredna 25 tokenom; na primer, minuta zvočnega posnetka je predstavljena kot 1 500 tokenov.

Gemini 2.0 Flash
Omejitev vhodnih tokenov	1,048,576
Omejitev izhodnih tokenov	8,192

Gemini 2.0 Flash je najzmogljivejši in najbolj vsestranski model družine Gemini. Nativno lahko ustvarja slike in ustvarja govor, glede zmogljivosti pa prekaša druge modele v skoraj vseh ključnih primerjalnih testih. Prepričajte se sami.

Sposobnost	Benchmark	Description	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
Splošno	MMLU-Pro	Ocenjuje, kako dobro modeli strojnega učenja razumejo naravni jezik	67.3%	75.8%	76.4%
Koda	Natural2Code	Ustvarjanje kode v jezikih Python, Java, C++, JS, Go	79.8%	85.4%	92.9%
Koda	Bird-SQL (Dev)	Ocenjuje pretvorbo vprašanj naravnega jezika v izvedljiv SQL	45.6%	54.4%	56.9%
Dejstvenost	FACTS Grounding	Sposobnost zagotavljanja vsebinsko pravilnih odgovorov glede na dokumente in različne zahteve uporabnikov	82.9%	80.0%	83.6%
Matematika	MATH	Zahtevne matematične naloge (vključno z algebro, geometrijo, predračunom in drugimi)	77.9%	86.5%	89.7%
Matematika	HiddenMath	Matematični problemi na tekmovalni ravni	47.2%	52.0%	63.0%
Razmišljanje	GPQA (diamond)	Zahtevna zbirka podatkov z vprašanji, ki so jih napisali strokovnjaki s področja biologije, fizike in kemije	51.0%	59.1%	62.1%
Slika	MMMU	Večdisciplinarni problemi večmodalnega razumevanja in sklepanja na univerzitetni ravni	62.3%	65.9%	70.7%
Audio	CoVoST2 (21 lang)	Samodejno prevajanje govora	37.4	40.1	39.2
Video	EgoSchema (test)	Analiza videoposnetkov	66.8%	71.2%	71.5%

Gemini 2.0 Flash Thinking združuje hitrost in zmogljivost ter izkazuje izjemno strokovno znanje pri reševanju zapletenih matematičnih in naravoslovnih problemov. Kontekstno okno z enim milijonom tokenov omogoča poglobljeno analizo dolgih besedil. Izboljšano razmišljanje zagotavlja večjo skladnost med mislimi in odgovori.

Gemini 2.0 Flash Thinking
Omejitev vhodnih tokenov	1,048,576
Omejitev izhodnih tokenov	65,536

Upoštevajte ogromno okno izhodnega tokena. To modelu omogoča ne le obdelavo dolgih zahtev, temveč tudi vračanje obsežnih odgovorov, kar lahko pride prav na primer pri generiranju velikih kosov kode.

Oglejte si, kako Gemini 2.0 Flash Thinking prekaša Gemini 1.5 Pro in Gemini 2.0 pri matematiki, naravoslovju in multimodalnem sklepanju. Morda na splošno ni tako vsestranski kot ta dva modela, vendar je na teh posebnih področjih Gemini 2.0 Flash Thinking neprimerljiv.

Matematika, naravoslovje in razmišljanje

Matematika in naravoslovje

Kritika

Klepetalni robot Gemini je imel težak začetek, ko je bil leta 2023 izdan. Razvijalcem se je preveč mudilo, da bi izdali tekmeca ChatGPT. Zato je bila različica klepetalnega robota, ki so jo izdali, polna hroščev. Uporabniki so se pritoževali zaradi številnih stvarnih napak in netočnosti v odgovorih bota.

Ena izmed najbolj odmevnih je bila polemika glede ustvarjanja slik. Gemini je poskušal predstaviti čim večjo rasno raznolikost tudi tam, kjer to ni bilo primerno. Po mnenju klepetalnega robota so bili tako videti nemški vojaki leta 1943:

Nemški vojaki leta 1943, ki jih je ustvaril Gemini

Tako so bili videti ameriški senatorji iz 19. stoletja:

Ameriški senatorji iz 19. stoletja, ki jih je ustvaril Gemini

Zaradi nezadovoljstva uporabnikov so delnice podjetja padle za 4,5 %, kar približno ustreza izgubi v višini 90 milijonov dolarjev. Razvijalci so morali tudi začasno blokirati možnost ustvarjanja slik ljudi.

Po sporu v zvezi z ustvarjanjem podob so nekateri uporabniki začeli obtoževati Geminijeve besedilne odgovore, da so pristranski do levice. V enem od takih primerov je Gemini navedel, da je „težko dokončno reči“, ali ima večji negativni vpliv na družbo Elon Musk ali nacistični diktator Adolf Hitler. Poleg tega so drugi uporabniki opazili, da je Gemini očitno naklonjen levičarskim politikom in vprašanjem, kot so pozitivna diskriminacija in pravica do splava, medtem ko ne želi podpirati desničarskih osebnosti, uživanja mesa in fosilnih goriv.

Vendar je treba povedati, da so vse te težave večinoma že za nami. Zdaj Gemini nima nobenih težav in je eden najuspešnejših in najbolj priljubljenih klepetalnih robotov na svetu.