Atgriezties uz galveno

Gemini: pārskats par tā inovatīvajām funkcijām un modeļiem

Gemini ir tērzēšanas robotu saime, kuras pamatā ir Google izstrādāts mākslīgais intelekts. Šobrīd Gemini ieņem trešo vietu starp visiem tērzēšanas robotiem pēc tirgus daļas, atpaliekot tikai no ChatGPT un Microsoft Copilot. Tajā pašā laikā Gemini turpina augt straujāk nekā konkurenti un pastāvīgi gūst arvien lielāku popularitāti: tas ieņem 4. vietu pēc jaunu lietotāju pieplūduma, un no visiem zināmajiem tērzēšanas robotiem straujāk aug tikai Claude. Šajā rakstā aplūkosim Gemini vēsturi, pašreizējos modeļus, to funkcijas un ierobežojumus.

Īsa Google Gemini vēsture

Uzņēmums Google ir bijis pionieris lielo valodas modeļu arhitektūras jomā, un, izstrādājot savus mākslīgā intelekta modeļus, tas balstās uz saviem stabilajiem pētījumiem.

  • 2017: Google pētnieki iepazīstina ar transformatora arhitektūru, kas ir pamatā daudziem mūsdienu lielajiem valodas modeļiem.
  • 2020: Uzņēmums iepazīstina ar Meena - uz neironu tīklu balstītu tērzēšanas robotu ar 2,6 miljardiem parametru, par kuru Google apgalvoja, ka tas ir pārāks par visiem citiem tajā laikā esošajiem tērzēšanas robotiem.
  • 2021: Meena tiek pārdēvēta par LaMDA (saīsinājums no Language Model for Dialogue Applications), jo palielinās tās datu un skaitļošanas jauda.
  • 2022: Tiek izlaists jauns valodas modelis ar nosaukumu PaLM (Pathways Language Model), kam salīdzinājumā ar LaMDA ir modernākas iespējas.
  • 2023: Gada pirmajā ceturksnī tiek izlaists tērzēšanas robots ar nosaukumu Google Bard, kura pamatā ir atvieglota un optimizēta LaMDA versija. Pēc tam otrajā ceturksnī tiek ieviests PaLM 2, kurā ir uzlabota kodēšana, daudzvalodu iespējas un uzlabotas spriešanas prasmes, ko pēc tam pārņem Bard. Visbeidzot, pēdējā ceturksnī Google paziņoja par Gemini 1.0.
  • 2024: Google pārdēvē Bard par Gemini un modernizē savus multimodālos mākslīgā intelekta modeļus līdz versijai 1.5. Decembrī tiek ieviesti Gemini 2.0 modeļi.

2024. gada aprīlī Google DeepMind izpilddirektors Demis Hassabis paziņo, ka laika gaitā uzņēmums mākslīgā intelekta tehnoloģiju izstrādei iztērēs vairāk nekā 100 miljardus ASV dolāru.

Demis Hassabis

Demis Hassabis

Gemini raksturīgās iezīmes

Katram tērzēšanas robotam ir ierobežotas zināšanas par nesenajiem notikumiem, jo tā mācību dati aptver tikai ierobežotu laika periodu. Robežpunkta datums tērzēšanas robotu kontekstā attiecas uz laika posmu, līdz kuram modelis ir apmācīts ar datiem un var sniegt informāciju. Piemēram, ja tērzēšanas robotam ir noteikts beigu datums 2023. gada oktobris, tas nozīmē, ka visas zināšanas un dati, kas tam ir pieejami, ir aktuāli tikai līdz šim datumam. Jebkuri notikumi, notikumi vai izmaiņas, kas ir notikušas pēc šī datuma, čatbota atbildēs netiks atspoguļoti. Šo ierobežojumu ir svarīgi saprast lietotājiem, jo tas ietekmē sniegtās informācijas precizitāti un atbilstību, jo īpaši tādās strauji mainīgās jomās kā tehnoloģijas, politika vai aktuālie notikumi. Tomēr Gemini var apiet šo ierobežojumu, piekļūstot un apstrādājot informāciju no tiešsaistes meklēšanas, izmantojot Google meklēšanas rīku, tādējādi nodrošinot aktuālākas atbildes.

Līdz ar to lietotājiem var būt nepieciešams pārbaudīt informāciju no jaunākiem avotiem, ja viņi meklē jaunākos atjauninājumus vai atziņas. Dažkārt Gemini parāda avotus un saistīto saturu savā atbildē un zem tās. Tie ietver tīmekļa avotus ar līdzīgu informāciju un saites, lai jūs varētu padziļināt informāciju. Gemini ir veidots tā, lai radītu oriģinālu saturu, bet, ja tas tieši un plaši citē kādu tīmekļa vietni, jūs redzēsiet citāta zīmi ar citēto avotu un saiti uz šo lapu. Avotos un saistītajā saturā var būt tīmekļa vietnes, kuras Gemini citējis vai kuras attiecas uz tā atbildes daļām. Ja Gemini atbildē ir miniatūra ar attēlu no tīmekļa vietnes, tiks parādīts avots un norādīta tiešā saite uz to.

Gemini rāda Ņujorkas attēlus

Gemini jau no paša sākuma tika izstrādāts multimodāls, t. i., tas tika apmācīts darbam ar dažādiem datu tipiem, un tagad tas var netraucēti strādāt ar dažādu veidu saturu. Kā redzams attēlā iepriekš, robots savās atbildēs var iekļaut attēlus. Gemini spēj saprast tekstu, audio, video fragmentus, ar roku rakstītas piezīmes, grafikus, diagrammas, spēj identificēt objektus fotogrāfijās un turklāt spēj ģenerēt attēlus, izmantojot Imagen 3, kas ir Google vismodernākais teksta-attēlu modelis.

Čatbotam ir arī plašas daudzvalodu iespējas, jo tas ir pieejams 46 dažādās valodās.

Pašreizējie modeļi, to stiprās puses un iespējas

Gemini piedāvā dažādus modeļus, kas optimizēti konkrētiem izmantošanas gadījumiem. Šeit ir īss pārskats par pieejamajiem variantiem:

ModelisIeejaIzejaApraksts

Gemini 2.0 Flash

Audio, attēli, videoklipi un tekstsTeksts, attēli (drīzumā) un audio (drīzumā)Jaunākās paaudzes funkcijas, ātrums un multimodāla ģenerēšana dažādiem uzdevumiem

Gemini 2.0 Flash Thinking

Teksts, attēliTekstsUzlabots domāšanas modelis, kas izceļas dabaszinātnēs un matemātikā

Gemini 1.5 Flash

Audio, attēli, videoklipi un tekstsTekstsĀtra un daudzpusīga veiktspēja dažādu uzdevumu veikšanai

Gemini 1.5 Flash-8B

Audio, attēli, videoklipi un tekstsTekstsLiela apjoma un zemākas inteliģences uzdevumi

Gemini 1.5 Pro

Audio, attēli, videoklipi un tekstsTekstsSarežģīti spriešanas uzdevumi, kas prasa vairāk intelekta

Gemini 1.5 Flash ir aprīkots ar 1 miljona tokenu konteksta logu, bet Gemini 1.5 Pro ir aprīkots ar 2 miljonu tokenu konteksta logu, kas ir visgarākais no visiem lielajiem valodas modeļiem.

Viens tokens ir līdzvērtīgs aptuveni 4 rakstzīmēm Gemini modeļos. 100 tokeni ir aptuveni 60-80 angļu valodas vārdu.

Praksē 1 miljons tokenu izskatītos šādi:

  • 50 000 kodu rindu (ar standarta 80 rakstzīmēm katrā rindā).
  • Vairāk nekā 200 vidēji garu podkāsta epizožu transkripcijas.
  • 8 vidēja garuma romāni angļu valodā.
  • Visas īsziņas, ko esat nosūtījis pēdējo 5 gadu laikā.

Gemini 1.5 Flash and Flash-8B

Ievades tokenu limits1,048,576
Izvades tokenu limits8,192
Maksimālais attēlu skaits3,600
Maksimālais video garums1 stunda
Maksimālais audio garumsAptuveni 9,5 stundas

Gemini 1.5 Pro nodrošina gandrīz nevainojamu izsaukumu, veicot garu konteksta meklēšanas uzdevumus dažādās modalitātēs, un ļauj precīzi apstrādāt garus dokumentus, tūkstošiem koda rindu, audio un video ierakstus un daudz ko citu.

Gemini 1.5 Pro

Ievades tokenu limits2,097,152
Izvades tokenu limits8,192
Maksimālais attēlu skaits7,200
Maksimālais video garums2 stundas
Maksimālais audio garumsAptuveni 19 stundas

Katrs attēls ir līdzvērtīgs 258 tokeniem. Atbalstītie attēlu tipi:

  • PNG
  • WEBP
  • JPEG
  • HEIC
  • HEIF

Lai gan attēla pikseļu skaitam nav īpašu ierobežojumu, izņemot modeļa konteksta logu, lielāki attēli tiek samazināti līdz maksimālajai izšķirtspējai 3072x3072, saglabājot to sākotnējo malu attiecību, savukārt mazāki attēli tiek samazināti līdz 768x768 pikseļiem.

Redzes spējas:

  • Uzraksti un atbildes uz jautājumiem par attēliem.
  • Transkribējiet un argumentējiet PDF failus, tostarp garus dokumentus līdz pat 2 miljonu tokenu konteksta logam.
  • Aprakstīt, segmentēt un iegūt informāciju no videoklipiem, tostarp vizuāliem kadriem un audioierakstiem, kuru garums nepārsniedz 90 minūtes.
Gemini spēj pareizi atpazīt visu ar roku rakstīto saturu un pārbaudīt pamatojumu.

Gemini spēj pareizi atpazīt visu ar roku rakstīto saturu un pārbaudīt pamatojumu.

Gemini audio iespējas:

  • Aprakstiet, apkopojiet vai atbildiet uz jautājumiem par audio saturu.
  • Sniedziet audioieraksta transkripciju.
  • Sniegt atbildes vai transkripciju par konkrētu audioieraksta segmentu.

Atbalstītie audio formāti:

  • WAV
  • MP3
  • FLAC
  • OGG Vorbis
  • AIFF
  • AAC

Katra audio ieraksta sekunde ir līdzvērtīga 25 tokeniem; piemēram, viena audio ieraksta minūte ir 1 500 tokenu.

Gemini 2.0 Flash

Ievades tokenu limits1,048,576
Izvades tokenu limits8,192

Gemini 2.0 Flash ir jaudīgākais un daudzpusīgākais Gemini ģimenes modelis. Tas var dabiski veidot attēlus un ģenerēt runu, un, runājot par veiktspēju, tas pārspēj citus modeļus gandrīz visos galvenajos kritērijos. Pārliecinieties paši.

SpējasSalīdzinošais kritērijsAprakstsGemini 1.5 FlashGemini 1.5 ProGemini 2.0 Flash
VispārīgiMMLU-ProNovērtē, cik labi mašīnmācīšanās modeļi saprot dabisko valodu67.3%75.8%76.4%
KodsNatural2CodeKoda ģenerēšana Python, Java, C++, JS, Go programmās79.8%85.4%92.9%
KodsBird-SQL (Dev)Izvērtē dabiskās valodas jautājumu pārvēršanu izpildāmā SQL45.6%54.4%56.9%
FaktiFACTS GroundingSpēja sniegt faktoloģiski pareizas atbildes, ņemot vērā dokumentus un dažādus lietotāju pieprasījumus82.9%80.0%83.6%
MatemātikaMATHSarežģītas matemātikas problēmas (tostarp algebras, ģeometrijas, pirmskalkulācijas un citas)77.9%86.5%89.7%
MatemātikaHiddenMathKonkursa līmeņa matemātikas uzdevumi47.2%52.0%63.0%
PamatojumsGPQA (diamond)Sarežģīts datu kopums ar jautājumiem, ko uzrakstījuši jomas eksperti bioloģijas, fizikas un ķīmijas jomā51.0%59.1%62.1%
AttēlsMMMUDaudznozaru koledžas līmeņa multimodālas izpratnes un argumentācijas problēmas62.3%65.9%70.7%
AudioCoVoST2 (21 lang)Automātiskā runas tulkošana37.440.139.2
VideoEgoSchema (test)Video analīze66.8%71.2%71.5%

Gemini 2.0 Flash Thinking apvieno ātrumu un veiktspēju, demonstrējot ievērojamas zināšanas sarežģītu matemātikas un dabaszinātņu problēmu risināšanā. Viena miljona tokenu konteksta logs ļauj padziļināti analizēt garu tekstu. Uzlabotā domāšana nodrošina lielāku konsekvenci starp domām un atbildēm.

Gemini 2.0 Flash Thinking

Ievades tokenu limits1,048,576
Izvades tokenu limits65,536

Lūdzu, ņemiet vērā milzīgo izejas tokena logu. Tas ļauj modelim ne tikai apstrādāt garus pieprasījumus, bet arī sniegt plašas atbildes, kas var noderēt, piemēram, ģenerējot lielus koda fragmentus.

Skatiet, kā Gemini 2.0 Flash Thinking pārspēj Gemini 1.5 Pro un Gemini 2.0 matemātikā, dabaszinātnēs un multimodālajā domāšanā. Iespējams, tas nav tik daudzpusīgs kā šie divi modeļi kopumā, taču šajās konkrētajās jomās Gemini 2.0 Flash Thinking ir nepārspējams.

Matemātika, dabaszinātnes un domāšana

Matemātika, dabaszinātnes un domāšana

Matemātika un dabaszinātnes

Matemātika un dabaszinātnes

Kritika

Gemini čatbotam bija smags sākums, kad tas tika izlaists 2023. gadā. Izstrādātāji pārāk steidzās, lai izlaistu konkurentu ChatGPT. Tāpēc čatbota izlaiduma versijā bija daudz kļūdu. Lietotāji sūdzējās par lielu skaitu faktu kļūdu un neprecizitāšu bota atbildēs.

Viena no skaļākajām bija pretrunas par attēlu ģenerēšanu. Gemini centās attēlot maksimālu rasu daudzveidību pat tur, kur tas bija nepiedienīgi. Saskaņā ar tērzēšanas robota apgalvojumiem šādi izskatījās vācu karavīri 1943. gadā:

Vācu karavīri 1943. gadā, ko ģenerē Gemini

Un šādi izskatījās ASV senatori 19. gadsimta 19. gadsimtā:

ASV senatori no 1800. gadiem, ko ģenerē Gemini

Lietotāju neapmierinātības dēļ uzņēmuma akcijas samazinājās par 4,5 %, kas aptuveni atbilst 90 miljonu ASV dolāru zaudējumiem. Izstrādātājiem nācās arī uz laiku bloķēt iespēju ģenerēt cilvēku attēlus.

Pēc strīdiem saistībā ar attēlu ģenerēšanu daži lietotāji sāka pārmest Gemini teksta atbildēm, ka tās ir tendenciozi tendētas uz kreisajiem. Vienā no šādiem piemēriem Gemini paziņoja, ka ir “grūti “galīgi pateikt”, vai lielāka negatīva ietekme uz sabiedrību ir bijusi Elonam Maskam vai nacistu diktatoram Ādolfam Hitleram. Turklāt citi lietotāji atzīmēja, ka Gemini, šķiet, atbalsta kreisi orientētus politiķus un tādus jautājumus kā pozitīva rīcība un tiesības uz abortiem, bet nelabprāt atbalsta labēji noskaņotas personas, gaļas patēriņu un fosilo kurināmo.

Taču jāsaka, ka visas šīs grūtības lielākoties jau ir pagātnē. Tagad Gemini nav nekādu problēmu, un tas ir viens no veiksmīgākajiem un populārākajiem tērzēšanas robotiem pasaulē.