Gemini: pregled njegovih inovativnih značajki i modela

Gemini je obitelj chatbota temeljena na umjetnoj inteligenciji koju je razvio Google. Trenutačno je Gemini na trećem mjestu među svim chatbotovima u smislu tržišnog udjela, iza samo ChatGPT-a i Microsoft Copilota. Istodobno, Gemini nastavlja rasti brže od svojih konkurenata i stalno stječe popularnost: nalazi se na 4. mjestu po priljevu novih korisnika, a među poznatim chatbotovima samo Claude raste brže. U ovom ćemo članku pogledati povijest Geminija, trenutne modele, njihove značajke i ograničenja.

Kratka povijest Google Geminija

Google je bio pionir u arhitekturi velikih jezičnih modela i oslanja se na svoje opsežno istraživanje kako bi razvio vlastite modele umjetne inteligencije.

2017: Googleovi istraživači predstavljaju transformatorsku arhitekturu koja podupire mnoge današnje velike jezične modele.
2020: Tvrtka predstavlja Meenu, chatbot temeljen na neuronskoj mreži s 2,6 milijardi parametara, za kojeg je Google tvrdio da je superiorniji od svih ostalih postojećih chatbota u to vrijeme.
2021: Meena je preimenovana u LaMDA (skraćenica od Language Model for Dialogue Applications) kako su se njezini podaci i računalna snaga povećali.
2022: Objavljen je novi jezični model pod nazivom PaLM (Pathways Language Model), s naprednijim mogućnostima u usporedbi s LaMDA.
2023: Chatbot pod nazivom Google Bard objavljen je tijekom prvog kvartala godine, uz podršku lagane i optimizirane verzije LaMDA.Zatim su, u drugom tromjesečju, predstavili PaLM 2, s poboljšanim kodiranjem, višejezičnim mogućnostima i poboljšanim vještinama zaključivanja, koje je Bard zatim usvojio. Konačno, u prošlom kvartalu, Google je najavio Gemini 1.0.
2024: Google preimenuje Bard u Gemini i nadograđuje svoje multimodalne modele umjetne inteligencije na verziju 1.5. Modeli Gemini 2.0 predstavljeni su u prosincu.

U travnju 2024. izvršni direktor Google DeepMinda Demis Hassabis rekao je da će tvrtka s vremenom potrošiti više od 100 milijardi dolara na razvoj tehnologije umjetne inteligencije.

Demis Hassabis

Karakteristike Geminija

Svaki chatbot ima ograničeno znanje o nedavnim događajima jer podaci o obuci obuhvaćaju samo ograničeno vremensko razdoblje. Presječni datum u kontekstu chatbota odnosi se na vremensku točku do koje je model obučen na podacima i može pružiti informacije. Na primjer, ako chatbot ima granični datum listopada 2023., to znači da su sva znanja i podaci kojima ima pristup aktualni samo do tog datuma. Bilo koji događaji, razvoj događaja ili promjene koji su se dogodili nakon tog datuma neće se odraziti na odgovore chatbota. Korisnicima je važno razumjeti ovo ograničenje jer utječe na točnost i relevantnost pruženih informacija, posebno u područjima koja se brzo mijenjaju kao što su tehnologija, politika ili aktualni događaji. Međutim, Gemini može zaobići ovo ograničenje pristupanjem i obradom informacija iz online pretraživanja putem Google pretraživanja, pružajući ažurnije odgovore.

Shodno tome, korisnici će možda trebati provjeriti informacije iz novijih izvora ako traže najnovija ažuriranja ili uvide. Ponekad vam Gemini prikazuje izvore i srodne sadržaje unutar i ispod svog odgovora. To uključuje web izvore sa sličnim informacijama i poveznicama za dublje istraživanje.Gemini je dizajniran za generiranje originalnog sadržaja, ali ako izravno citira opširno s web-stranice, vidjet ćete navodnik s citiranim izvorom i vezom na tu stranicu. Izvori i povezani sadržaj mogu uključivati web stranice koje je Gemini citirao ili koje se odnose na dijelove njegovog odgovora. Ako Geminijev odgovor uključuje sličicu slike s weba, prikazat će izvor i pružiti poveznicu izravno na njega.

Gemini je dizajniran multimodalno od samog početka, što znači da je obučen za više vrsta podataka, a sada može besprijekorno raditi s različitim vrstama sadržaja. Kao što možete vidjeti na gornjoj slici, bot može uključiti slike u svoje odgovore. Blizanci mogu razumjeti tekst, audio, video fragmente, rukom pisane bilješke, grafikone, dijagrame, mogu identificirati objekte na fotografijama, a povrh toga mogu generirati slike koristeći Imagen 3, Googleov najnapredniji model teksta u sliku.

Chatbot također ima široke višejezične mogućnosti jer je dostupan na 46 različitih jezika.

Aktualni modeli, njihove snage i mogućnosti

Gemini nudi različite modele koji su optimizirani za specifične slučajeve uporabe. Evo kratkog pregleda dostupnih varijanti:

Model	Ulazni	Izlaz	Opis
Gemini 2.0 Flash	Audio, slike, video i tekst	Tekst, slike (uskoro) i zvuk (uskoro)	Značajke sljedeće generacije, brzina i multimodalna generacija za različite zadatke
Gemini 2.0 Flash Thinking	Tekst, slike	Tekst	Poboljšani model zaključivanja koji se ističe u znanosti i matematici
Gemini 1.5 Flash	Audio, slike, video i tekst	Tekst	Brza i svestrana izvedba u različitim zadacima
Gemini 1.5 Flash-8B	Audio, slike, video i tekst	Tekst	Zadaci velikog volumena i niže inteligencije
Gemini 1.5 Pro	Audio, slike, video i tekst	Tekst	Složeni zadaci zaključivanja koji zahtijevaju više inteligencije

Gemini 1.5 Flash dolazi s kontekstnim prozorom od 1 milijuna tokena, a Gemini 1.5 Pro dolazi s kontekstnim prozorom od 2 milijuna tokena, što je najdulje od bilo kojeg velikog jezičnog modela.

Jedan token odgovara otprilike 4 znaka za Gemini modele. 100 tokena je oko 60-80 engleskih riječi.

U praksi bi milijun tokena izgledao ovako:

50 000 redaka koda (sa standardnih 80 znakova po retku).
Transkripti više od 200 prosječno dugih epizoda podcasta.
8 engleskih romana prosječne dužine.
Sve tekstualne poruke koje ste poslali u zadnjih 5 godina.

Gemini 1.5 Flash and Flash-8B
Ograničenje ulaznog tokena	1,048,576
Ograničenje izlaznog tokena	8,192
Maksimalan broj slika	3,600
Najveća duljina videozapisa	1 sat
Najveća duljina zvuka	Otprilike 9,5 sati

Gemini 1.5 Pro postiže gotovo savršeno prisjećanje zadataka pronalaženja dugog konteksta u različitim modalitetima, otključavajući mogućnost precizne obrade dugih dokumenata, tisuća redaka koda, sati zvuka, videa i više.

Gemini 1.5 Pro
Ograničenje ulaznog tokena	2,097,152
Ograničenje izlaznog tokena	8,192
Maksimalan broj slika	7,200
Najveća duljina videozapisa	2 sata
Najveća duljina zvuka	Otprilike 19 sati

Svaka slika je ekvivalentna 258 tokena. Podržane vrste slika:

PNG
WEBP
JPEG
HEIC
HEIF

Iako nema posebnih ograničenja za broj piksela u slici osim kontekstnog prozora modela, veće slike su smanjene na maksimalnu razlučivost od 3072x3072 uz očuvanje svog izvornog omjera, dok su manje slike smanjene na 768x768 piksela.

Mogućnosti vida:

Opisi i odgovori na pitanja o slikama.
Prepišite i obrazložite PDF-ove, uključujući dugačke dokumente s kontekstnim prozorom do 2 milijuna tokena.
Opišite, segmentirajte i izvucite informacije iz videozapisa, uključujući vizualne okvire i zvuk, u trajanju do 90 minuta.

Gemini je u stanju ispravno prepoznati sav rukom pisani sadržaj i provjeriti obrazloženje.

Geminijeve audio mogućnosti:

Opišite, sažmite ili odgovorite na pitanja o audio sadržaju.
Navedite prijepis zvuka.
Navedite odgovore ili transkripciju o određenom segmentu zvuka.

Podržani audio formati:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

Svaka sekunda zvuka je ekvivalentna 25 tokena; na primjer, jedna minuta zvuka predstavlja se kao 1500 tokena.

Gemini 2.0 Flash
Ograničenje ulaznog tokena	1,048,576
Ograničenje izlaznog tokena	8,192

Gemini 2.0 Flash najmoćniji je i najsvestraniji model obitelji Gemini. Može nativno stvarati slike i generirati govor, a kada je riječ o performansama, nadmašuje ostale modele u gotovo svim ključnim mjerilima. Uvjerite se sami.

Sposobnost	Benchmark	Opis	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
General	MMLU-Pro	Ocjenjuje koliko dobro modeli strojnog učenja razumiju prirodni jezik	67.3%	75.8%	76.4%
Kodirati	Natural2Code	Generiranje koda preko Pythona, Jave, C++, JS, Go	79.8%	85.4%	92.9%
Kodirati	Bird-SQL (Dev)	Ocjenjuje pretvaranje pitanja prirodnog jezika u izvršni SQL	45.6%	54.4%	56.9%
Faktičnost	FACTS Grounding	Sposobnost pružanja točnih činjeničnih odgovora na dokumente i različite zahtjeve korisnika	82.9%	80.0%	83.6%
Matematika	MATH	Izazovni matematički problemi (uključujući algebru, geometriju, predračun i druge)	77.9%	86.5%	89.7%
Matematika	HiddenMath	Zadaci iz matematike na razini natjecanja	47.2%	52.0%	63.0%
Rasuđivanje	GPQA (diamond)	Izazovan skup podataka pitanja koja su napisali stručnjaci za područje biologije, fizike i kemije	51.0%	59.1%	62.1%
Slika	MMMU	Multidisciplinarni multimodalni problemi razumijevanja i zaključivanja na razini fakulteta	62.3%	65.9%	70.7%
Audio	CoVoST2 (21 lang)	Automatski prijevod govora	37.4	40.1	39.2
Video	EgoSchema (test)	Video analiza	66.8%	71.2%	71.5%

Gemini 2.0 Flash Thinking kombinira brzinu i performanse, pokazujući izvanrednu stručnost u rješavanju složenih problema u matematici i znanosti. Kontekstni prozor od milijun tokena omogućuje dublju analizu dugog teksta. Poboljšano razmišljanje omogućuje veću dosljednost između misli i odgovora.

Gemini 2.0 Flash Thinking
Ograničenje ulaznog tokena	1,048,576
Ograničenje izlaznog tokena	65,536

Obratite pažnju na golemi izlazni prozor tokena. Omogućuje modelu ne samo obradu dugih zahtjeva, već i vraćanje opsežnih odgovora, što bi moglo biti zgodno za generiranje velikih dijelova koda, na primjer.

Pogledajte kako Gemini 2.0 Flash Thinking nadmašuje Gemini 1.5 Pro i Gemini 2.0 u matematici, znanosti i multimodalnom zaključivanju. Možda nije toliko svestran kao ta dva modela općenito, ali u ovim specifičnim domenama, Gemini 2.0 Flash Thinking nema premca.

Matematika, znanost i zaključivanje

Matematika i znanost

Kritika

Gemini chatbot imao je težak početak kada je objavljen 2023. godine. Programeri su bili u prevelikoj žurbi da puste konkurenta ChatGPT-u. I zato je izdana verzija chatbota bila prožeta bugovima. Korisnici su se žalili na veliki broj činjeničnih pogrešaka i netočnosti u odgovorima bota.

Jedna od najčuvenijih bila je kontroverza oko stvaranja imidža. Blizanci su pokušali prikazati maksimalnu rasnu raznolikost čak i tamo gdje je to bilo neprikladno. Prema chatbotu, ovako su izgledali njemački vojnici 1943. godine:

Njemački vojnici 1943. godine generirani od strane Gemini

A ovako su izgledali američki senatori iz 19. stoljeća:

Američki senatori iz 1800-ih generirani od strane Geminija

Zbog nezadovoljstva korisnika, dionice tvrtke pale su za 4,5%, što otprilike odgovara gubitku od 90 milijuna dolara. Programeri su također morali privremeno blokirati mogućnost generiranja slika ljudi.

Nakon kontroverze oko stvaranja slika, neki su korisnici počeli optuživati Geminijeve tekstualne odgovore da su pristrani prema ljevici. U jednom takvom primjeru Gemini je izjavio da je "teško reći definitivno" jesu li Elon Musk ili nacistički diktator Adolf Hitler imali veći negativan utjecaj na društvo. Osim toga, drugi su korisnici primijetili da se čini da Blizanci favoriziraju lijevo orijentirane političare i pitanja poput afirmativne akcije i prava na pobačaj, dok oklijevaju podržati desničare, potrošnju mesa i fosilna goriva.

Ali mora se reći da su sve te poteškoće sada uglavnom iza nas. Sada Gemini nema problema i jedan je od najuspješnijih i najpopularnijih chatbota na svijetu.