Înapoi la pagina principală

Gemini: o prezentare generală a caracteristicilor și modelelor sale inovatoare

Gemini este o familie de chatbots bazată pe inteligență artificială dezvoltată de Google. În acest moment, Gemini se află pe locul al treilea între toate chatbots-urile în ceea ce privește cota de piață, după ChatGPT și Microsoft Copilot. În același timp, Gemini continuă să crească mai rapid decât concurenții săi și câștigă în mod constant popularitate: ocupă locul 4 în ceea ce privește afluxul de utilizatori noi, doar Claude crescând mai rapid printre chatbots-urile cunoscute. În acest articol vom analiza istoria Gemini, modelele actuale, caracteristicile și limitările acestora.

O scurtă istorie a Google Gemini

Google a fost un pionier în arhitectura modelelor lingvistice mari și se bazează pe cercetările sale solide pentru a-și dezvolta propriile modele de inteligență artificială.

  • 2017: Cercetătorii Google prezintă arhitectura Transformator, care stă la baza multora dintre modelele lingvistice mari de astăzi.
  • 2020: Compania prezintă Meena, un chatbot bazat pe rețele neuronale cu 2,6 miliarde de parametri, despre care Google susținea că este superior tuturor celorlalte chatbot-uri existente la momentul respectiv.
  • 2021: Meena este redenumit în LaMDA (prescurtarea de la Language Model for Dialogue Applications) pe măsură ce datele și puterea sa de calcul au crescut.
  • 2022: Este lansat un nou model lingvistic numit PaLM (Pathways Language Model), cu capacități mai avansate în comparație cu LaMDA.
  • 2023: Un chatbot numit Google Bard este lansat în primul trimestru al anului, susținut de o versiune ușoară și optimizată a LaMDA. Apoi, în al doilea trimestru, se introduce PaLM 2, cu o codificare îmbunătățită, capabilități multilingve și abilități de raționament sporite, pe care Bard le adoptă apoi. În cele din urmă, în ultimul trimestru, Google a anunțat Gemini 1.0.
  • 2024: Google redenumește Bard în Gemini și actualizează modelele sale de inteligență artificială multimodală la versiunea 1.5. Modelele Gemini 2.0 sunt introduse în decembrie.

În aprilie 2024, Demis Hassabis, CEO al Google DeepMind, a declarat că, de-a lungul timpului, compania va cheltui peste 100 de miliarde de dolari pentru dezvoltarea tehnologiei inteligenței artificiale.

Demis Hassabis

Demis Hassabis

Caracteristicile distinctive ale Gemini

Fiecare chatbot are cunoștințe limitate despre evenimentele recente, deoarece datele sale de formare cuprind doar o perioadă finită de timp. O dată limită în contextul chatbot-urilor se referă la momentul în timp până la care modelul a fost antrenat pe date și poate furniza informații. De exemplu, dacă un chatbot are o dată limită de octombrie 2023, înseamnă că toate cunoștințele și datele la care are acces sunt actuale doar până la acea dată. Orice evenimente, evoluții sau schimbări care au avut loc după acea dată nu vor fi reflectate în răspunsurile chatbotului. Această limitare este importantă de înțeles pentru utilizatori, deoarece afectează acuratețea și relevanța informațiilor furnizate, în special în domenii care se schimbă rapid, cum ar fi tehnologia, politica sau evenimentele curente. Cu toate acestea, Gemini poate depăși această limitare prin accesarea și prelucrarea informațiilor din căutările online prin intermediul Google Search, oferind răspunsuri mai actualizate.

În consecință, este posibil ca utilizatorii să fie nevoiți să verifice informațiile din surse mai recente dacă caută cele mai recente actualizări sau informații. Uneori, Gemini vă afișează surse și conținut conex în cadrul și sub răspunsul său. Acestea includ surse web cu informații similare și linkuri care vă permit să aprofundați informațiile. Gemini este conceput pentru a genera conținut original, dar dacă citează direct pe larg dintr-o pagină web, veți vedea un ghilimele cu sursa citată și un link către pagina respectivă. Sursele și conținutul asociat pot include site-uri pe care Gemini le-a citat sau care se referă la părți din răspunsul său. Dacă răspunsul Gemini include o miniatură a unei imagini de pe internet, se va afișa sursa și se va oferi un link direct către aceasta.

Gemini prezintă imagini din New York

Gemini a fost proiectat multimodal de la bun început, ceea ce înseamnă că a fost antrenat pe mai multe tipuri de date, iar acum poate lucra fără probleme cu diferite tipuri de conținut. După cum puteți vedea în imaginea de mai sus, robotul poate include imagini în răspunsurile sale. Gemini poate înțelege text, audio, fragmente video, notițe scrise de mână, grafice, diagrame, poate identifica obiecte în fotografii și, în plus, poate genera imagini utilizând Imagen 3, cel mai avansat model text-imagine de la Google.

De asemenea, chatbotul are capacități multilingve extinse, fiind disponibil în 46 de limbi diferite.

Modele actuale, punctele forte și capacitățile acestora

Gemini oferă diferite modele care sunt optimizate pentru cazuri de utilizare specifice. Iată o scurtă prezentare a variantelor care sunt disponibile:

Model

IntroducereIeșireDescriere

Gemini 2.0 Flash

Audio, imagini, videoclipuri și textText, imagini (în curând) și audio (în curând)Caracteristici de ultimă generație, viteză și generare multimodală pentru o gamă variată de sarcini

Gemini 2.0 Flash Thinking

Text, imagini

Text

Model de raționament îmbunătățit care excelează în știință și matematică

Gemini 1.5 Flash

Audio, imagini, videoclipuri și text

Text

Performanță rapidă și versatilă într-o gamă variată de sarcini

Gemini 1.5 Flash-8B

Audio, imagini, videoclipuri și text

Text

Sarcini de volum mare și inteligență redusă

Gemini 1.5 Pro

Audio, imagini, videoclipuri și text

Text

Sarcini complexe de raționament care necesită mai multă inteligență

Gemini 1.5 Flash vine cu o fereastră de context de 1 milion de token-uri, iar Gemini 1.5 Pro vine cu o fereastră de context de 2 milioane de token-uri, care este cea mai lungă dintre toate modelele lingvistice mari.

Un token este echivalent cu aproximativ 4 caractere pentru modelele Gemini. 100 de token-uri reprezintă aproximativ 60-80 de cuvinte în limba engleză.

În practică, 1 milion de token-uri ar arăta ca:

  • 50.000 de linii de cod (cu standardul de 80 de caractere pe linie).
  • Transcrierea a peste 200 de episoade de podcast de lungime medie.
  • 8 romane în limba engleză de lungime medie.
  • Toate mesajele text pe care le-ați trimis în ultimii 5 ani.

Gemini 1.5 Flash and Flash-8B

Limita tokenului de intrare1,048,576
Limita tokenului de ieșire8,192
Numărul maxim de imagini3,600
Lungimea maximă a videoclipului1 oră
Lungimea maximă a sunetuluiAproximativ 9,5 ore

Gemini 1.5 Pro atinge o rechemare aproape perfectă în sarcinile de recuperare a textului lung în toate modalitățile, deblocând capacitatea de a procesa cu precizie documente lungi, mii de linii de cod, ore de audio, video și multe altele.

Gemini 1.5 Pro

Limita tokenului de intrare2,097,152
Limita tokenului de ieșire8,192
Numărul maxim de imagini7,200
Lungimea maximă a videoclipului2 ore
Lungimea maximă a sunetuluiAproximativ 19 ore

Fiecare imagine este echivalentă cu 258 de token-uri. Tipuri de imagini acceptate:

  • PNG
  • WEBP
  • JPEG
  • HEIC
  • HEIF

Deși nu există limite specifice pentru numărul de pixeli dintr-o imagine în afara ferestrei contextuale a modelului, imaginile mai mari sunt redimensionate până la o rezoluție maximă de 3072x3072, păstrând raportul de aspect original, în timp ce imaginile mai mici sunt redimensionate până la 768x768 pixeli.

Capacități vizuale:

  • Subtitrare și răspuns la întrebări despre imagini.
  • Transcrierea și motivarea PDF-urilor, inclusiv a documentelor lungi, cu o fereastră contextuală de până la 2 milioane de token-uri.
  • Descrieți, segmentați și extrageți informații din videoclipuri, inclusiv cadre vizuale și audio, cu o durată de până la 90 de minute.
Gemini este capabil să recunoască corect tot conținutul scris de mână și să verifice raționamentul.

Gemini este capabil să recunoască corect tot conținutul scris de mână și să verifice raționamentul.

Capacitățile audio ale Gemini:

  • Descrieți, rezumați sau răspundeți la întrebări despre conținutul audio.
  • Oferă o transcriere a conținutului audio.
  • Oferiți răspunsuri sau o transcriere a unui segment specific al conținutului audio.

Formate audio acceptate:

  • WAV
  • MP3
  • FLAC
  • OGG Vorbis
  • AIFF
  • AAC

Fiecare secundă de sunet este echivalentă cu 25 de token-uri; de exemplu, un minut de sunet este reprezentat ca 1.500 de token-uri.

Gemini 2.0 Flash

Limita tokenului de intrare1,048,576
Limita tokenului de ieșire8,192

Gemini 2.0 Flash este cel mai puternic și versatil model din familia Gemini. Acesta poate crea în mod nativ imagini și genera vorbire, iar când vine vorba de performanță, depășește alte modele în aproape toate criteriile de referință cheie. Vedeți cu ochii voștri.

CapacitateParametru de referințăDescriereGemini 1.5 FlashGemini 1.5 ProGemini 2.0 Flash
GeneralitățiMMLU-ProEvaluează cât de bine înțeleg limbajul natural modelele de învățare automată67.3%75.8%76.4%
CodNatural2CodeGenerarea de coduri în Python, Java, C++, JS, Go79.8%85.4%92.9%
CodBird-SQL (Dev)Evaluează conversia întrebărilor în limbaj natural în SQL executabil45.6%54.4%56.9%
FactualitateFACTS GroundingAbilitatea de a oferi răspunsuri corecte din punct de vedere factual la documente și la diverse solicitări ale utilizatorilor82.9%80.0%83.6%
MatematicăMATHProbleme matematice dificile (inclusiv algebră, geometrie, precalcul și altele)77.9%86.5%89.7%
MatematicăHiddenMathProbleme de matematică la nivel de concurs47.2%52.0%63.0%
RaționamentGPQA (diamond)Set de date provocatoare de întrebări scrise de experți în biologie, fizică și chimie51.0%59.1%62.1%
ImagineMMMUProbleme de înțelegere și raționament multimodal la nivel de colegiu multidisciplinar62.3%65.9%70.7%
AudioCoVoST2 (21 lang)Traducerea automată a vorbirii37.440.139.2
VideoEgoSchema (test)Analiză video66.8%71.2%71.5%

Gemini 2.0 Flash Thinking combină viteza și performanța, demonstrând o expertiză remarcabilă în abordarea problemelor complexe din matematică și știință. O fereastră de context cu un milion de token-uri permite o analiză mai profundă a textului de formă lungă. Gândirea îmbunătățită oferă mai multă coerență între gânduri și răspunsuri.

Gemini 2.0 Flash Thinking

Limita tokenului de intrare1,048,576
Limita tokenului de ieșire65,536

Vă rugăm să observați fereastra gigantică a tokenului de ieșire. Aceasta permite modelului nu numai să proceseze cereri lungi, ci și să ofere răspunsuri extinse, care ar putea fi utile pentru generarea unor bucăți mari de cod, de exemplu.

Vedeți cum Gemini 2.0 Flash Thinking depășește Gemini 1.5 Pro și Gemini 2.0 în matematică, știință și raționament multimodal. S-ar putea să nu fie la fel de versatil ca aceste două modele în general, dar în aceste domenii specifice, Gemini 2.0 Flash Thinking este de neegalat.

Matematică, știință și raționament

Matematică, știință și raționament

Matematică și știință

Matematică și știință

Critici

Chatbotul Gemini a avut un început dificil atunci când a fost lansat în 2023. Dezvoltatorii s-au grăbit prea mult să lanseze un rival pentru ChatGPT. Și de aceea versiunea de lansare a chatbotului a fost plină de erori. Utilizatorii s-au plâns de un număr mare de erori factuale și inexactități în răspunsurile robotului.

Una dintre cele mai mediatizate a fost controversa privind generarea imaginilor. Gemini a încercat să prezinte o diversitate rasială maximă chiar și acolo unde era nepotrivit. Potrivit chatbotului, așa arătau soldații germani în 1943:

Soldați germani în 1943 generat de Gemini

Și iată cum arătau senatorii americani din anii 1800:

Senatori americani din anii 1800 generați de Gemini

Din cauza nemulțumirii utilizatorilor, acțiunile companiei au scăzut cu 4,5%, ceea ce corespunde aproximativ unei pierderi de 90 de milioane de dolari. De asemenea, dezvoltatorii au fost nevoiți să blocheze temporar capacitatea de a genera imagini ale persoanelor.

În urma controversei legate de generarea de imagini, unii utilizatori au început să acuze răspunsurile text ale Gemini că sunt părtinitoare față de stânga. Într-un astfel de exemplu, Gemini a afirmat că era „dificil de spus definitiv” dacă Elon Musk sau dictatorul nazist Adolf Hitler au avut un impact negativ mai mare asupra societății. În plus, alți utilizatori au observat că Gemini părea să favorizeze politicienii de stânga și aspecte precum acțiunea afirmativă și dreptul la avort, fiind în același timp reticent în a sprijini figurile de dreapta, consumul de carne și combustibilii fosili.

Dar trebuie spus că toate aceste dificultăți sunt în mare parte în urmă acum. Acum Gemini nu mai are probleme și este unul dintre cele mai de succes și populare chatbots din lume.