Gemini: pārskats par tā inovatīvajām funkcijām un modeļiem
Gemini ir tērzēšanas robotu saime, kuras pamatā ir Google izstrādāts mākslīgais intelekts. Šobrīd Gemini ieņem trešo vietu starp visiem tērzēšanas robotiem pēc tirgus daļas, atpaliekot tikai no ChatGPT un Microsoft Copilot. Tajā pašā laikā Gemini turpina augt straujāk nekā konkurenti un pastāvīgi gūst arvien lielāku popularitāti: tas ieņem 4. vietu pēc jaunu lietotāju pieplūduma, un no visiem zināmajiem tērzēšanas robotiem straujāk aug tikai Claude. Šajā rakstā aplūkosim Gemini vēsturi, pašreizējos modeļus, to funkcijas un ierobežojumus.
Īsa Google Gemini vēsture
Uzņēmums Google ir bijis pionieris lielo valodas modeļu arhitektūras jomā, un, izstrādājot savus mākslīgā intelekta modeļus, tas balstās uz saviem stabilajiem pētījumiem.
- 2017: Google pētnieki iepazīstina ar transformatora arhitektūru, kas ir pamatā daudziem mūsdienu lielajiem valodas modeļiem.
- 2020: Uzņēmums iepazīstina ar Meena - uz neironu tīklu balstītu tērzēšanas robotu ar 2,6 miljardiem parametru, par kuru Google apgalvoja, ka tas ir pārāks par visiem citiem tajā laikā esošajiem tērzēšanas robotiem.
- 2021: Meena tiek pārdēvēta par LaMDA (saīsinājums no Language Model for Dialogue Applications), jo palielinās tās datu un skaitļošanas jauda.
- 2022: Tiek izlaists jauns valodas modelis ar nosaukumu PaLM (Pathways Language Model), kam salīdzinājumā ar LaMDA ir modernākas iespējas.
- 2023: Gada pirmajā ceturksnī tiek izlaists tērzēšanas robots ar nosaukumu Google Bard, kura pamatā ir atvieglota un optimizēta LaMDA versija. Pēc tam otrajā ceturksnī tiek ieviests PaLM 2, kurā ir uzlabota kodēšana, daudzvalodu iespējas un uzlabotas spriešanas prasmes, ko pēc tam pārņem Bard. Visbeidzot, pēdējā ceturksnī Google paziņoja par Gemini 1.0.
- 2024: Google pārdēvē Bard par Gemini un modernizē savus multimodālos mākslīgā intelekta modeļus līdz versijai 1.5. Decembrī tiek ieviesti Gemini 2.0 modeļi.
2024. gada aprīlī Google DeepMind izpilddirektors Demis Hassabis paziņo, ka laika gaitā uzņēmums mākslīgā intelekta tehnoloģiju izstrādei iztērēs vairāk nekā 100 miljardus ASV dolāru.

Demis Hassabis
Gemini raksturīgās iezīmes
Katram tērzēšanas robotam ir ierobežotas zināšanas par nesenajiem notikumiem, jo tā mācību dati aptver tikai ierobežotu laika periodu. Robežpunkta datums tērzēšanas robotu kontekstā attiecas uz laika posmu, līdz kuram modelis ir apmācīts ar datiem un var sniegt informāciju. Piemēram, ja tērzēšanas robotam ir noteikts beigu datums 2023. gada oktobris, tas nozīmē, ka visas zināšanas un dati, kas tam ir pieejami, ir aktuāli tikai līdz šim datumam. Jebkuri notikumi, notikumi vai izmaiņas, kas ir notikušas pēc šī datuma, čatbota atbildēs netiks atspoguļoti. Šo ierobežojumu ir svarīgi saprast lietotājiem, jo tas ietekmē sniegtās informācijas precizitāti un atbilstību, jo īpaši tādās strauji mainīgās jomās kā tehnoloģijas, politika vai aktuālie notikumi. Tomēr Gemini var apiet šo ierobežojumu, piekļūstot un apstrādājot informāciju no tiešsaistes meklēšanas, izmantojot Google meklēšanas rīku, tādējādi nodrošinot aktuālākas atbildes.
Līdz ar to lietotājiem var būt nepieciešams pārbaudīt informāciju no jaunākiem avotiem, ja viņi meklē jaunākos atjauninājumus vai atziņas. Dažkārt Gemini parāda avotus un saistīto saturu savā atbildē un zem tās. Tie ietver tīmekļa avotus ar līdzīgu informāciju un saites, lai jūs varētu padziļināt informāciju. Gemini ir veidots tā, lai radītu oriģinālu saturu, bet, ja tas tieši un plaši citē kādu tīmekļa vietni, jūs redzēsiet citāta zīmi ar citēto avotu un saiti uz šo lapu. Avotos un saistītajā saturā var būt tīmekļa vietnes, kuras Gemini citējis vai kuras attiecas uz tā atbildes daļām. Ja Gemini atbildē ir miniatūra ar attēlu no tīmekļa vietnes, tiks parādīts avots un norādīta tiešā saite uz to.

Gemini jau no paša sākuma tika izstrādāts multimodāls, t. i., tas tika apmācīts darbam ar dažādiem datu tipiem, un tagad tas var netraucēti strādāt ar dažādu veidu saturu. Kā redzams attēlā iepriekš, robots savās atbildēs var iekļaut attēlus. Gemini spēj saprast tekstu, audio, video fragmentus, ar roku rakstītas piezīmes, grafikus, diagrammas, spēj identificēt objektus fotogrāfijās un turklāt spēj ģenerēt attēlus, izmantojot Imagen 3, kas ir Google vismodernākais teksta-attēlu modelis.
Čatbotam ir arī plašas daudzvalodu iespējas, jo tas ir pieejams 46 dažādās valodās.
Pašreizējie modeļi, to stiprās puses un iespējas
Gemini piedāvā dažādus modeļus, kas optimizēti konkrētiem izmantošanas gadījumiem. Šeit ir īss pārskats par pieejamajiem variantiem:
| Modelis | Ieeja | Izeja | Apraksts |
Gemini 2.0 Flash | Audio, attēli, videoklipi un teksts | Teksts, attēli (drīzumā) un audio (drīzumā) | Jaunākās paaudzes funkcijas, ātrums un multimodāla ģenerēšana dažādiem uzdevumiem |
Gemini 2.0 Flash Thinking | Teksts, attēli | Teksts | Uzlabots domāšanas modelis, kas izceļas dabaszinātnēs un matemātikā |
Gemini 1.5 Flash | Audio, attēli, videoklipi un teksts | Teksts | Ātra un daudzpusīga veiktspēja dažādu uzdevumu veikšanai |
Gemini 1.5 Flash-8B | Audio, attēli, videoklipi un teksts | Teksts | Liela apjoma un zemākas inteliģences uzdevumi |
Gemini 1.5 Pro | Audio, attēli, videoklipi un teksts | Teksts | Sarežģīti spriešanas uzdevumi, kas prasa vairāk intelekta |
Gemini 1.5 Flash ir aprīkots ar 1 miljona tokenu konteksta logu, bet Gemini 1.5 Pro ir aprīkots ar 2 miljonu tokenu konteksta logu, kas ir visgarākais no visiem lielajiem valodas modeļiem.
Viens tokens ir līdzvērtīgs aptuveni 4 rakstzīmēm Gemini modeļos. 100 tokeni ir aptuveni 60-80 angļu valodas vārdu.
Praksē 1 miljons tokenu izskatītos šādi:
- 50 000 kodu rindu (ar standarta 80 rakstzīmēm katrā rindā).
- Vairāk nekā 200 vidēji garu podkāsta epizožu transkripcijas.
- 8 vidēja garuma romāni angļu valodā.
- Visas īsziņas, ko esat nosūtījis pēdējo 5 gadu laikā.
Gemini 1.5 Flash and Flash-8B | |
| Ievades tokenu limits | 1,048,576 |
| Izvades tokenu limits | 8,192 |
| Maksimālais attēlu skaits | 3,600 |
| Maksimālais video garums | 1 stunda |
| Maksimālais audio garums | Aptuveni 9,5 stundas |
Gemini 1.5 Pro nodrošina gandrīz nevainojamu izsaukumu, veicot garu konteksta meklēšanas uzdevumus dažādās modalitātēs, un ļauj precīzi apstrādāt garus dokumentus, tūkstošiem koda rindu, audio un video ierakstus un daudz ko citu.
Gemini 1.5 Pro | |
| Ievades tokenu limits | 2,097,152 |
| Izvades tokenu limits | 8,192 |
| Maksimālais attēlu skaits | 7,200 |
| Maksimālais video garums | 2 stundas |
| Maksimālais audio garums | Aptuveni 19 stundas |
Katrs attēls ir līdzvērtīgs 258 tokeniem. Atbalstītie attēlu tipi:
- PNG
- WEBP
- JPEG
- HEIC
- HEIF
Lai gan attēla pikseļu skaitam nav īpašu ierobežojumu, izņemot modeļa konteksta logu, lielāki attēli tiek samazināti līdz maksimālajai izšķirtspējai 3072x3072, saglabājot to sākotnējo malu attiecību, savukārt mazāki attēli tiek samazināti līdz 768x768 pikseļiem.
Redzes spējas:
- Uzraksti un atbildes uz jautājumiem par attēliem.
- Transkribējiet un argumentējiet PDF failus, tostarp garus dokumentus līdz pat 2 miljonu tokenu konteksta logam.
- Aprakstīt, segmentēt un iegūt informāciju no videoklipiem, tostarp vizuāliem kadriem un audioierakstiem, kuru garums nepārsniedz 90 minūtes.

Gemini spēj pareizi atpazīt visu ar roku rakstīto saturu un pārbaudīt pamatojumu.
Gemini audio iespējas:
- Aprakstiet, apkopojiet vai atbildiet uz jautājumiem par audio saturu.
- Sniedziet audioieraksta transkripciju.
- Sniegt atbildes vai transkripciju par konkrētu audioieraksta segmentu.
Atbalstītie audio formāti:
- WAV
- MP3
- FLAC
- OGG Vorbis
- AIFF
- AAC
Katra audio ieraksta sekunde ir līdzvērtīga 25 tokeniem; piemēram, viena audio ieraksta minūte ir 1 500 tokenu.
Gemini 2.0 Flash | |
| Ievades tokenu limits | 1,048,576 |
| Izvades tokenu limits | 8,192 |
Gemini 2.0 Flash ir jaudīgākais un daudzpusīgākais Gemini ģimenes modelis. Tas var dabiski veidot attēlus un ģenerēt runu, un, runājot par veiktspēju, tas pārspēj citus modeļus gandrīz visos galvenajos kritērijos. Pārliecinieties paši.
| Spējas | Salīdzinošais kritērijs | Apraksts | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 2.0 Flash |
| Vispārīgi | MMLU-Pro | Novērtē, cik labi mašīnmācīšanās modeļi saprot dabisko valodu | 67.3% | 75.8% | 76.4% |
| Kods | Natural2Code | Koda ģenerēšana Python, Java, C++, JS, Go programmās | 79.8% | 85.4% | 92.9% |
| Kods | Bird-SQL (Dev) | Izvērtē dabiskās valodas jautājumu pārvēršanu izpildāmā SQL | 45.6% | 54.4% | 56.9% |
| Fakti | FACTS Grounding | Spēja sniegt faktoloģiski pareizas atbildes, ņemot vērā dokumentus un dažādus lietotāju pieprasījumus | 82.9% | 80.0% | 83.6% |
| Matemātika | MATH | Sarežģītas matemātikas problēmas (tostarp algebras, ģeometrijas, pirmskalkulācijas un citas) | 77.9% | 86.5% | 89.7% |
| Matemātika | HiddenMath | Konkursa līmeņa matemātikas uzdevumi | 47.2% | 52.0% | 63.0% |
| Pamatojums | GPQA (diamond) | Sarežģīts datu kopums ar jautājumiem, ko uzrakstījuši jomas eksperti bioloģijas, fizikas un ķīmijas jomā | 51.0% | 59.1% | 62.1% |
| Attēls | MMMU | Daudznozaru koledžas līmeņa multimodālas izpratnes un argumentācijas problēmas | 62.3% | 65.9% | 70.7% |
| Audio | CoVoST2 (21 lang) | Automātiskā runas tulkošana | 37.4 | 40.1 | 39.2 |
| Video | EgoSchema (test) | Video analīze | 66.8% | 71.2% | 71.5% |
Gemini 2.0 Flash Thinking apvieno ātrumu un veiktspēju, demonstrējot ievērojamas zināšanas sarežģītu matemātikas un dabaszinātņu problēmu risināšanā. Viena miljona tokenu konteksta logs ļauj padziļināti analizēt garu tekstu. Uzlabotā domāšana nodrošina lielāku konsekvenci starp domām un atbildēm.
Gemini 2.0 Flash Thinking | |
| Ievades tokenu limits | 1,048,576 |
| Izvades tokenu limits | 65,536 |
Lūdzu, ņemiet vērā milzīgo izejas tokena logu. Tas ļauj modelim ne tikai apstrādāt garus pieprasījumus, bet arī sniegt plašas atbildes, kas var noderēt, piemēram, ģenerējot lielus koda fragmentus.
Skatiet, kā Gemini 2.0 Flash Thinking pārspēj Gemini 1.5 Pro un Gemini 2.0 matemātikā, dabaszinātnēs un multimodālajā domāšanā. Iespējams, tas nav tik daudzpusīgs kā šie divi modeļi kopumā, taču šajās konkrētajās jomās Gemini 2.0 Flash Thinking ir nepārspējams.

Matemātika, dabaszinātnes un domāšana

Matemātika un dabaszinātnes
Kritika
Gemini čatbotam bija smags sākums, kad tas tika izlaists 2023. gadā. Izstrādātāji pārāk steidzās, lai izlaistu konkurentu ChatGPT. Tāpēc čatbota izlaiduma versijā bija daudz kļūdu. Lietotāji sūdzējās par lielu skaitu faktu kļūdu un neprecizitāšu bota atbildēs.
Viena no skaļākajām bija pretrunas par attēlu ģenerēšanu. Gemini centās attēlot maksimālu rasu daudzveidību pat tur, kur tas bija nepiedienīgi. Saskaņā ar tērzēšanas robota apgalvojumiem šādi izskatījās vācu karavīri 1943. gadā:

Un šādi izskatījās ASV senatori 19. gadsimta 19. gadsimtā:

Lietotāju neapmierinātības dēļ uzņēmuma akcijas samazinājās par 4,5 %, kas aptuveni atbilst 90 miljonu ASV dolāru zaudējumiem. Izstrādātājiem nācās arī uz laiku bloķēt iespēju ģenerēt cilvēku attēlus.
Pēc strīdiem saistībā ar attēlu ģenerēšanu daži lietotāji sāka pārmest Gemini teksta atbildēm, ka tās ir tendenciozi tendētas uz kreisajiem. Vienā no šādiem piemēriem Gemini paziņoja, ka ir “grūti “galīgi pateikt”, vai lielāka negatīva ietekme uz sabiedrību ir bijusi Elonam Maskam vai nacistu diktatoram Ādolfam Hitleram. Turklāt citi lietotāji atzīmēja, ka Gemini, šķiet, atbalsta kreisi orientētus politiķus un tādus jautājumus kā pozitīva rīcība un tiesības uz abortiem, bet nelabprāt atbalsta labēji noskaņotas personas, gaļas patēriņu un fosilo kurināmo.
Taču jāsaka, ka visas šīs grūtības lielākoties jau ir pagātnē. Tagad Gemini nav nekādu problēmu, un tas ir viens no veiksmīgākajiem un populārākajiem tērzēšanas robotiem pasaulē.