Gemini: pregled njegovih inovativnih značajki i modela
Gemini je obitelj chatbota temeljena na umjetnoj inteligenciji koju je razvio Google. Trenutačno je Gemini na trećem mjestu među svim chatbotovima u smislu tržišnog udjela, iza samo ChatGPT-a i Microsoft Copilota. Istodobno, Gemini nastavlja rasti brže od svojih konkurenata i stalno stječe popularnost: nalazi se na 4. mjestu po priljevu novih korisnika, a među poznatim chatbotovima samo Claude raste brže. U ovom ćemo članku pogledati povijest Geminija, trenutne modele, njihove značajke i ograničenja.
Kratka povijest Google Geminija
Google je bio pionir u arhitekturi velikih jezičnih modela i oslanja se na svoje opsežno istraživanje kako bi razvio vlastite modele umjetne inteligencije.
- 2017: Googleovi istraživači predstavljaju transformatorsku arhitekturu koja podupire mnoge današnje velike jezične modele.
- 2020: Tvrtka predstavlja Meenu, chatbot temeljen na neuronskoj mreži s 2,6 milijardi parametara, za kojeg je Google tvrdio da je superiorniji od svih ostalih postojećih chatbota u to vrijeme.
- 2021: Meena je preimenovana u LaMDA (skraćenica od Language Model for Dialogue Applications) kako su se njezini podaci i računalna snaga povećali.
- 2022: Objavljen je novi jezični model pod nazivom PaLM (Pathways Language Model), s naprednijim mogućnostima u usporedbi s LaMDA.
- 2023: Chatbot pod nazivom Google Bard objavljen je tijekom prvog kvartala godine, uz podršku lagane i optimizirane verzije LaMDA.Zatim su, u drugom tromjesečju, predstavili PaLM 2, s poboljšanim kodiranjem, višejezičnim mogućnostima i poboljšanim vještinama zaključivanja, koje je Bard zatim usvojio. Konačno, u prošlom kvartalu, Google je najavio Gemini 1.0.
- 2024: Google preimenuje Bard u Gemini i nadograđuje svoje multimodalne modele umjetne inteligencije na verziju 1.5. Modeli Gemini 2.0 predstavljeni su u prosincu.
U travnju 2024. izvršni direktor Google DeepMinda Demis Hassabis rekao je da će tvrtka s vremenom potrošiti više od 100 milijardi dolara na razvoj tehnologije umjetne inteligencije.

Demis Hassabis
Karakteristike Geminija
Svaki chatbot ima ograničeno znanje o nedavnim događajima jer podaci o obuci obuhvaćaju samo ograničeno vremensko razdoblje. Presječni datum u kontekstu chatbota odnosi se na vremensku točku do koje je model obučen na podacima i može pružiti informacije. Na primjer, ako chatbot ima granični datum listopada 2023., to znači da su sva znanja i podaci kojima ima pristup aktualni samo do tog datuma. Bilo koji događaji, razvoj događaja ili promjene koji su se dogodili nakon tog datuma neće se odraziti na odgovore chatbota. Korisnicima je važno razumjeti ovo ograničenje jer utječe na točnost i relevantnost pruženih informacija, posebno u područjima koja se brzo mijenjaju kao što su tehnologija, politika ili aktualni događaji. Međutim, Gemini može zaobići ovo ograničenje pristupanjem i obradom informacija iz online pretraživanja putem Google pretraživanja, pružajući ažurnije odgovore.
Shodno tome, korisnici će možda trebati provjeriti informacije iz novijih izvora ako traže najnovija ažuriranja ili uvide. Ponekad vam Gemini prikazuje izvore i srodne sadržaje unutar i ispod svog odgovora. To uključuje web izvore sa sličnim informacijama i poveznicama za dublje istraživanje.Gemini je dizajniran za generiranje originalnog sadržaja, ali ako izravno citira opširno s web-stranice, vidjet ćete navodnik s citiranim izvorom i vezom na tu stranicu. Izvori i povezani sadržaj mogu uključivati web stranice koje je Gemini citirao ili koje se odnose na dijelove njegovog odgovora. Ako Geminijev odgovor uključuje sličicu slike s weba, prikazat će izvor i pružiti poveznicu izravno na njega.

Gemini je dizajniran multimodalno od samog početka, što znači da je obučen za više vrsta podataka, a sada može besprijekorno raditi s različitim vrstama sadržaja. Kao što možete vidjeti na gornjoj slici, bot može uključiti slike u svoje odgovore. Blizanci mogu razumjeti tekst, audio, video fragmente, rukom pisane bilješke, grafikone, dijagrame, mogu identificirati objekte na fotografijama, a povrh toga mogu generirati slike koristeći Imagen 3, Googleov najnapredniji model teksta u sliku.
Chatbot također ima široke višejezične mogućnosti jer je dostupan na 46 različitih jezika.
Aktualni modeli, njihove snage i mogućnosti
Gemini nudi različite modele koji su optimizirani za specifične slučajeve uporabe. Evo kratkog pregleda dostupnih varijanti:
Model | Ulazni | Izlaz | Opis |
Gemini 2.0 Flash | Audio, slike, video i tekst | Tekst, slike (uskoro) i zvuk (uskoro) | Značajke sljedeće generacije, brzina i multimodalna generacija za različite zadatke |
Gemini 2.0 Flash Thinking | Tekst, slike | Tekst | Poboljšani model zaključivanja koji se ističe u znanosti i matematici |
Gemini 1.5 Flash | Audio, slike, video i tekst | Tekst | Brza i svestrana izvedba u različitim zadacima |
Gemini 1.5 Flash-8B | Audio, slike, video i tekst | Tekst | Zadaci velikog volumena i niže inteligencije |
Gemini 1.5 Pro | Audio, slike, video i tekst | Tekst | Složeni zadaci zaključivanja koji zahtijevaju više inteligencije |
Gemini 1.5 Flash dolazi s kontekstnim prozorom od 1 milijuna tokena, a Gemini 1.5 Pro dolazi s kontekstnim prozorom od 2 milijuna tokena, što je najdulje od bilo kojeg velikog jezičnog modela.
Jedan token odgovara otprilike 4 znaka za Gemini modele. 100 tokena je oko 60-80 engleskih riječi.
U praksi bi milijun tokena izgledao ovako:
- 50 000 redaka koda (sa standardnih 80 znakova po retku).
- Transkripti više od 200 prosječno dugih epizoda podcasta.
- 8 engleskih romana prosječne dužine.
- Sve tekstualne poruke koje ste poslali u zadnjih 5 godina.
Gemini 1.5 Flash and Flash-8B | |
| Ograničenje ulaznog tokena | 1,048,576 |
| Ograničenje izlaznog tokena | 8,192 |
| Maksimalan broj slika | 3,600 |
| Najveća duljina videozapisa | 1 sat |
| Najveća duljina zvuka | Otprilike 9,5 sati |
Gemini 1.5 Pro postiže gotovo savršeno prisjećanje zadataka pronalaženja dugog konteksta u različitim modalitetima, otključavajući mogućnost precizne obrade dugih dokumenata, tisuća redaka koda, sati zvuka, videa i više.
Gemini 1.5 Pro | |
| Ograničenje ulaznog tokena | 2,097,152 |
| Ograničenje izlaznog tokena | 8,192 |
| Maksimalan broj slika | 7,200 |
| Najveća duljina videozapisa | 2 sata |
| Najveća duljina zvuka | Otprilike 19 sati |
Svaka slika je ekvivalentna 258 tokena. Podržane vrste slika:
- PNG
- WEBP
- JPEG
- HEIC
- HEIF
Iako nema posebnih ograničenja za broj piksela u slici osim kontekstnog prozora modela, veće slike su smanjene na maksimalnu razlučivost od 3072x3072 uz očuvanje svog izvornog omjera, dok su manje slike smanjene na 768x768 piksela.
Mogućnosti vida:
- Opisi i odgovori na pitanja o slikama.
- Prepišite i obrazložite PDF-ove, uključujući dugačke dokumente s kontekstnim prozorom do 2 milijuna tokena.
- Opišite, segmentirajte i izvucite informacije iz videozapisa, uključujući vizualne okvire i zvuk, u trajanju do 90 minuta.

Gemini je u stanju ispravno prepoznati sav rukom pisani sadržaj i provjeriti obrazloženje.
Geminijeve audio mogućnosti:
- Opišite, sažmite ili odgovorite na pitanja o audio sadržaju.
- Navedite prijepis zvuka.
- Navedite odgovore ili transkripciju o određenom segmentu zvuka.
Podržani audio formati:
- WAV
- MP3
- FLAC
- OGG Vorbis
- AIFF
- AAC
Svaka sekunda zvuka je ekvivalentna 25 tokena; na primjer, jedna minuta zvuka predstavlja se kao 1500 tokena.
Gemini 2.0 Flash | |
| Ograničenje ulaznog tokena | 1,048,576 |
| Ograničenje izlaznog tokena | 8,192 |
Gemini 2.0 Flash najmoćniji je i najsvestraniji model obitelji Gemini. Može nativno stvarati slike i generirati govor, a kada je riječ o performansama, nadmašuje ostale modele u gotovo svim ključnim mjerilima. Uvjerite se sami.
| Sposobnost | Benchmark | Opis | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 2.0 Flash |
| General | MMLU-Pro | Ocjenjuje koliko dobro modeli strojnog učenja razumiju prirodni jezik | 67.3% | 75.8% | 76.4% |
| Kodirati | Natural2Code | Generiranje koda preko Pythona, Jave, C++, JS, Go | 79.8% | 85.4% | 92.9% |
| Kodirati | Bird-SQL (Dev) | Ocjenjuje pretvaranje pitanja prirodnog jezika u izvršni SQL | 45.6% | 54.4% | 56.9% |
| Faktičnost | FACTS Grounding | Sposobnost pružanja točnih činjeničnih odgovora na dokumente i različite zahtjeve korisnika | 82.9% | 80.0% | 83.6% |
| Matematika | MATH | Izazovni matematički problemi (uključujući algebru, geometriju, predračun i druge) | 77.9% | 86.5% | 89.7% |
| Matematika | HiddenMath | Zadaci iz matematike na razini natjecanja | 47.2% | 52.0% | 63.0% |
| Rasuđivanje | GPQA (diamond) | Izazovan skup podataka pitanja koja su napisali stručnjaci za područje biologije, fizike i kemije | 51.0% | 59.1% | 62.1% |
| Slika | MMMU | Multidisciplinarni multimodalni problemi razumijevanja i zaključivanja na razini fakulteta | 62.3% | 65.9% | 70.7% |
| Audio | CoVoST2 (21 lang) | Automatski prijevod govora | 37.4 | 40.1 | 39.2 |
| Video | EgoSchema (test) | Video analiza | 66.8% | 71.2% | 71.5% |
Gemini 2.0 Flash Thinking kombinira brzinu i performanse, pokazujući izvanrednu stručnost u rješavanju složenih problema u matematici i znanosti. Kontekstni prozor od milijun tokena omogućuje dublju analizu dugog teksta. Poboljšano razmišljanje omogućuje veću dosljednost između misli i odgovora.
Gemini 2.0 Flash Thinking | |
| Ograničenje ulaznog tokena | 1,048,576 |
| Ograničenje izlaznog tokena | 65,536 |
Obratite pažnju na golemi izlazni prozor tokena. Omogućuje modelu ne samo obradu dugih zahtjeva, već i vraćanje opsežnih odgovora, što bi moglo biti zgodno za generiranje velikih dijelova koda, na primjer.
Pogledajte kako Gemini 2.0 Flash Thinking nadmašuje Gemini 1.5 Pro i Gemini 2.0 u matematici, znanosti i multimodalnom zaključivanju. Možda nije toliko svestran kao ta dva modela općenito, ali u ovim specifičnim domenama, Gemini 2.0 Flash Thinking nema premca.

Matematika, znanost i zaključivanje

Matematika i znanost
Kritika
Gemini chatbot imao je težak početak kada je objavljen 2023. godine. Programeri su bili u prevelikoj žurbi da puste konkurenta ChatGPT-u. I zato je izdana verzija chatbota bila prožeta bugovima. Korisnici su se žalili na veliki broj činjeničnih pogrešaka i netočnosti u odgovorima bota.
Jedna od najčuvenijih bila je kontroverza oko stvaranja imidža. Blizanci su pokušali prikazati maksimalnu rasnu raznolikost čak i tamo gdje je to bilo neprikladno. Prema chatbotu, ovako su izgledali njemački vojnici 1943. godine:

A ovako su izgledali američki senatori iz 19. stoljeća:

Zbog nezadovoljstva korisnika, dionice tvrtke pale su za 4,5%, što otprilike odgovara gubitku od 90 milijuna dolara. Programeri su također morali privremeno blokirati mogućnost generiranja slika ljudi.
Nakon kontroverze oko stvaranja slika, neki su korisnici počeli optuživati Geminijeve tekstualne odgovore da su pristrani prema ljevici. U jednom takvom primjeru Gemini je izjavio da je "teško reći definitivno" jesu li Elon Musk ili nacistički diktator Adolf Hitler imali veći negativan utjecaj na društvo. Osim toga, drugi su korisnici primijetili da se čini da Blizanci favoriziraju lijevo orijentirane političare i pitanja poput afirmativne akcije i prava na pobačaj, dok oklijevaju podržati desničare, potrošnju mesa i fosilna goriva.
Ali mora se reći da su sve te poteškoće sada uglavnom iza nas. Sada Gemini nema problema i jedan je od najuspješnijih i najpopularnijih chatbota na svijetu.