Gemini: pārskats par tā inovatīvajām funkcijām un modeļiem

Gemini ir tērzēšanas robotu saime, kuras pamatā ir Google izstrādāts mākslīgais intelekts. Šobrīd Gemini ieņem trešo vietu starp visiem tērzēšanas robotiem pēc tirgus daļas, atpaliekot tikai no ChatGPT un Microsoft Copilot. Tajā pašā laikā Gemini turpina augt straujāk nekā konkurenti un pastāvīgi gūst arvien lielāku popularitāti: tas ieņem 4. vietu pēc jaunu lietotāju pieplūduma, un no visiem zināmajiem tērzēšanas robotiem straujāk aug tikai Claude. Šajā rakstā aplūkosim Gemini vēsturi, pašreizējos modeļus, to funkcijas un ierobežojumus.

Īsa Google Gemini vēsture

Uzņēmums Google ir bijis pionieris lielo valodas modeļu arhitektūras jomā, un, izstrādājot savus mākslīgā intelekta modeļus, tas balstās uz saviem stabilajiem pētījumiem.

2017: Google pētnieki iepazīstina ar transformatora arhitektūru, kas ir pamatā daudziem mūsdienu lielajiem valodas modeļiem.
2020: Uzņēmums iepazīstina ar Meena - uz neironu tīklu balstītu tērzēšanas robotu ar 2,6 miljardiem parametru, par kuru Google apgalvoja, ka tas ir pārāks par visiem citiem tajā laikā esošajiem tērzēšanas robotiem.
2021: Meena tiek pārdēvēta par LaMDA (saīsinājums no Language Model for Dialogue Applications), jo palielinās tās datu un skaitļošanas jauda.
2022: Tiek izlaists jauns valodas modelis ar nosaukumu PaLM (Pathways Language Model), kam salīdzinājumā ar LaMDA ir modernākas iespējas.
2023: Gada pirmajā ceturksnī tiek izlaists tērzēšanas robots ar nosaukumu Google Bard, kura pamatā ir atvieglota un optimizēta LaMDA versija. Pēc tam otrajā ceturksnī tiek ieviests PaLM 2, kurā ir uzlabota kodēšana, daudzvalodu iespējas un uzlabotas spriešanas prasmes, ko pēc tam pārņem Bard. Visbeidzot, pēdējā ceturksnī Google paziņoja par Gemini 1.0.
2024: Google pārdēvē Bard par Gemini un modernizē savus multimodālos mākslīgā intelekta modeļus līdz versijai 1.5. Decembrī tiek ieviesti Gemini 2.0 modeļi.

2024. gada aprīlī Google DeepMind izpilddirektors Demis Hassabis paziņo, ka laika gaitā uzņēmums mākslīgā intelekta tehnoloģiju izstrādei iztērēs vairāk nekā 100 miljardus ASV dolāru.

Demis Hassabis

Gemini raksturīgās iezīmes

Katram tērzēšanas robotam ir ierobežotas zināšanas par nesenajiem notikumiem, jo tā mācību dati aptver tikai ierobežotu laika periodu. Robežpunkta datums tērzēšanas robotu kontekstā attiecas uz laika posmu, līdz kuram modelis ir apmācīts ar datiem un var sniegt informāciju. Piemēram, ja tērzēšanas robotam ir noteikts beigu datums 2023. gada oktobris, tas nozīmē, ka visas zināšanas un dati, kas tam ir pieejami, ir aktuāli tikai līdz šim datumam. Jebkuri notikumi, notikumi vai izmaiņas, kas ir notikušas pēc šī datuma, čatbota atbildēs netiks atspoguļoti. Šo ierobežojumu ir svarīgi saprast lietotājiem, jo tas ietekmē sniegtās informācijas precizitāti un atbilstību, jo īpaši tādās strauji mainīgās jomās kā tehnoloģijas, politika vai aktuālie notikumi. Tomēr Gemini var apiet šo ierobežojumu, piekļūstot un apstrādājot informāciju no tiešsaistes meklēšanas, izmantojot Google meklēšanas rīku, tādējādi nodrošinot aktuālākas atbildes.

Līdz ar to lietotājiem var būt nepieciešams pārbaudīt informāciju no jaunākiem avotiem, ja viņi meklē jaunākos atjauninājumus vai atziņas. Dažkārt Gemini parāda avotus un saistīto saturu savā atbildē un zem tās. Tie ietver tīmekļa avotus ar līdzīgu informāciju un saites, lai jūs varētu padziļināt informāciju. Gemini ir veidots tā, lai radītu oriģinālu saturu, bet, ja tas tieši un plaši citē kādu tīmekļa vietni, jūs redzēsiet citāta zīmi ar citēto avotu un saiti uz šo lapu. Avotos un saistītajā saturā var būt tīmekļa vietnes, kuras Gemini citējis vai kuras attiecas uz tā atbildes daļām. Ja Gemini atbildē ir miniatūra ar attēlu no tīmekļa vietnes, tiks parādīts avots un norādīta tiešā saite uz to.

Gemini jau no paša sākuma tika izstrādāts multimodāls, t. i., tas tika apmācīts darbam ar dažādiem datu tipiem, un tagad tas var netraucēti strādāt ar dažādu veidu saturu. Kā redzams attēlā iepriekš, robots savās atbildēs var iekļaut attēlus. Gemini spēj saprast tekstu, audio, video fragmentus, ar roku rakstītas piezīmes, grafikus, diagrammas, spēj identificēt objektus fotogrāfijās un turklāt spēj ģenerēt attēlus, izmantojot Imagen 3, kas ir Google vismodernākais teksta-attēlu modelis.

Čatbotam ir arī plašas daudzvalodu iespējas, jo tas ir pieejams 46 dažādās valodās.

Pašreizējie modeļi, to stiprās puses un iespējas

Gemini piedāvā dažādus modeļus, kas optimizēti konkrētiem izmantošanas gadījumiem. Šeit ir īss pārskats par pieejamajiem variantiem:

Modelis	Ieeja	Izeja	Apraksts
Gemini 2.0 Flash	Audio, attēli, videoklipi un teksts	Teksts, attēli (drīzumā) un audio (drīzumā)	Jaunākās paaudzes funkcijas, ātrums un multimodāla ģenerēšana dažādiem uzdevumiem
Gemini 2.0 Flash Thinking	Teksts, attēli	Teksts	Uzlabots domāšanas modelis, kas izceļas dabaszinātnēs un matemātikā
Gemini 1.5 Flash	Audio, attēli, videoklipi un teksts	Teksts	Ātra un daudzpusīga veiktspēja dažādu uzdevumu veikšanai
Gemini 1.5 Flash-8B	Audio, attēli, videoklipi un teksts	Teksts	Liela apjoma un zemākas inteliģences uzdevumi
Gemini 1.5 Pro	Audio, attēli, videoklipi un teksts	Teksts	Sarežģīti spriešanas uzdevumi, kas prasa vairāk intelekta

Gemini 1.5 Flash ir aprīkots ar 1 miljona tokenu konteksta logu, bet Gemini 1.5 Pro ir aprīkots ar 2 miljonu tokenu konteksta logu, kas ir visgarākais no visiem lielajiem valodas modeļiem.

Viens tokens ir līdzvērtīgs aptuveni 4 rakstzīmēm Gemini modeļos. 100 tokeni ir aptuveni 60-80 angļu valodas vārdu.

Praksē 1 miljons tokenu izskatītos šādi:

50 000 kodu rindu (ar standarta 80 rakstzīmēm katrā rindā).
Vairāk nekā 200 vidēji garu podkāsta epizožu transkripcijas.
8 vidēja garuma romāni angļu valodā.
Visas īsziņas, ko esat nosūtījis pēdējo 5 gadu laikā.

Gemini 1.5 Flash and Flash-8B
Ievades tokenu limits	1,048,576
Izvades tokenu limits	8,192
Maksimālais attēlu skaits	3,600
Maksimālais video garums	1 stunda
Maksimālais audio garums	Aptuveni 9,5 stundas

Gemini 1.5 Pro nodrošina gandrīz nevainojamu izsaukumu, veicot garu konteksta meklēšanas uzdevumus dažādās modalitātēs, un ļauj precīzi apstrādāt garus dokumentus, tūkstošiem koda rindu, audio un video ierakstus un daudz ko citu.

Gemini 1.5 Pro
Ievades tokenu limits	2,097,152
Izvades tokenu limits	8,192
Maksimālais attēlu skaits	7,200
Maksimālais video garums	2 stundas
Maksimālais audio garums	Aptuveni 19 stundas

Katrs attēls ir līdzvērtīgs 258 tokeniem. Atbalstītie attēlu tipi:

PNG
WEBP
JPEG
HEIC
HEIF

Lai gan attēla pikseļu skaitam nav īpašu ierobežojumu, izņemot modeļa konteksta logu, lielāki attēli tiek samazināti līdz maksimālajai izšķirtspējai 3072x3072, saglabājot to sākotnējo malu attiecību, savukārt mazāki attēli tiek samazināti līdz 768x768 pikseļiem.

Redzes spējas:

Uzraksti un atbildes uz jautājumiem par attēliem.
Transkribējiet un argumentējiet PDF failus, tostarp garus dokumentus līdz pat 2 miljonu tokenu konteksta logam.
Aprakstīt, segmentēt un iegūt informāciju no videoklipiem, tostarp vizuāliem kadriem un audioierakstiem, kuru garums nepārsniedz 90 minūtes.

Gemini spēj pareizi atpazīt visu ar roku rakstīto saturu un pārbaudīt pamatojumu.

Gemini audio iespējas:

Aprakstiet, apkopojiet vai atbildiet uz jautājumiem par audio saturu.
Sniedziet audioieraksta transkripciju.
Sniegt atbildes vai transkripciju par konkrētu audioieraksta segmentu.

Atbalstītie audio formāti:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

Katra audio ieraksta sekunde ir līdzvērtīga 25 tokeniem; piemēram, viena audio ieraksta minūte ir 1 500 tokenu.

Gemini 2.0 Flash
Ievades tokenu limits	1,048,576
Izvades tokenu limits	8,192

Gemini 2.0 Flash ir jaudīgākais un daudzpusīgākais Gemini ģimenes modelis. Tas var dabiski veidot attēlus un ģenerēt runu, un, runājot par veiktspēju, tas pārspēj citus modeļus gandrīz visos galvenajos kritērijos. Pārliecinieties paši.

Spējas	Salīdzinošais kritērijs	Apraksts	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
Vispārīgi	MMLU-Pro	Novērtē, cik labi mašīnmācīšanās modeļi saprot dabisko valodu	67.3%	75.8%	76.4%
Kods	Natural2Code	Koda ģenerēšana Python, Java, C++, JS, Go programmās	79.8%	85.4%	92.9%
Kods	Bird-SQL (Dev)	Izvērtē dabiskās valodas jautājumu pārvēršanu izpildāmā SQL	45.6%	54.4%	56.9%
Fakti	FACTS Grounding	Spēja sniegt faktoloģiski pareizas atbildes, ņemot vērā dokumentus un dažādus lietotāju pieprasījumus	82.9%	80.0%	83.6%
Matemātika	MATH	Sarežģītas matemātikas problēmas (tostarp algebras, ģeometrijas, pirmskalkulācijas un citas)	77.9%	86.5%	89.7%
Matemātika	HiddenMath	Konkursa līmeņa matemātikas uzdevumi	47.2%	52.0%	63.0%
Pamatojums	GPQA (diamond)	Sarežģīts datu kopums ar jautājumiem, ko uzrakstījuši jomas eksperti bioloģijas, fizikas un ķīmijas jomā	51.0%	59.1%	62.1%
Attēls	MMMU	Daudznozaru koledžas līmeņa multimodālas izpratnes un argumentācijas problēmas	62.3%	65.9%	70.7%
Audio	CoVoST2 (21 lang)	Automātiskā runas tulkošana	37.4	40.1	39.2
Video	EgoSchema (test)	Video analīze	66.8%	71.2%	71.5%

Gemini 2.0 Flash Thinking apvieno ātrumu un veiktspēju, demonstrējot ievērojamas zināšanas sarežģītu matemātikas un dabaszinātņu problēmu risināšanā. Viena miljona tokenu konteksta logs ļauj padziļināti analizēt garu tekstu. Uzlabotā domāšana nodrošina lielāku konsekvenci starp domām un atbildēm.

Gemini 2.0 Flash Thinking
Ievades tokenu limits	1,048,576
Izvades tokenu limits	65,536

Lūdzu, ņemiet vērā milzīgo izejas tokena logu. Tas ļauj modelim ne tikai apstrādāt garus pieprasījumus, bet arī sniegt plašas atbildes, kas var noderēt, piemēram, ģenerējot lielus koda fragmentus.

Skatiet, kā Gemini 2.0 Flash Thinking pārspēj Gemini 1.5 Pro un Gemini 2.0 matemātikā, dabaszinātnēs un multimodālajā domāšanā. Iespējams, tas nav tik daudzpusīgs kā šie divi modeļi kopumā, taču šajās konkrētajās jomās Gemini 2.0 Flash Thinking ir nepārspējams.

Matemātika, dabaszinātnes un domāšana

Matemātika un dabaszinātnes

Kritika

Gemini čatbotam bija smags sākums, kad tas tika izlaists 2023. gadā. Izstrādātāji pārāk steidzās, lai izlaistu konkurentu ChatGPT. Tāpēc čatbota izlaiduma versijā bija daudz kļūdu. Lietotāji sūdzējās par lielu skaitu faktu kļūdu un neprecizitāšu bota atbildēs.

Viena no skaļākajām bija pretrunas par attēlu ģenerēšanu. Gemini centās attēlot maksimālu rasu daudzveidību pat tur, kur tas bija nepiedienīgi. Saskaņā ar tērzēšanas robota apgalvojumiem šādi izskatījās vācu karavīri 1943. gadā:

Vācu karavīri 1943. gadā, ko ģenerē Gemini

Un šādi izskatījās ASV senatori 19. gadsimta 19. gadsimtā:

ASV senatori no 1800. gadiem, ko ģenerē Gemini

Lietotāju neapmierinātības dēļ uzņēmuma akcijas samazinājās par 4,5 %, kas aptuveni atbilst 90 miljonu ASV dolāru zaudējumiem. Izstrādātājiem nācās arī uz laiku bloķēt iespēju ģenerēt cilvēku attēlus.

Pēc strīdiem saistībā ar attēlu ģenerēšanu daži lietotāji sāka pārmest Gemini teksta atbildēm, ka tās ir tendenciozi tendētas uz kreisajiem. Vienā no šādiem piemēriem Gemini paziņoja, ka ir “grūti “galīgi pateikt”, vai lielāka negatīva ietekme uz sabiedrību ir bijusi Elonam Maskam vai nacistu diktatoram Ādolfam Hitleram. Turklāt citi lietotāji atzīmēja, ka Gemini, šķiet, atbalsta kreisi orientētus politiķus un tādus jautājumus kā pozitīva rīcība un tiesības uz abortiem, bet nelabprāt atbalsta labēji noskaņotas personas, gaļas patēriņu un fosilo kurināmo.

Taču jāsaka, ka visas šīs grūtības lielākoties jau ir pagātnē. Tagad Gemini nav nekādu problēmu, un tas ir viens no veiksmīgākajiem un populārākajiem tērzēšanas robotiem pasaulē.