Обратно към основната страница

Gemini: преглед на иновативните му функции и модели

Gemini е семейство чатботове, базирани на изкуствен интелект, разработени от Google. В момента Gemini е на трето място сред всички чатботове по пазарен дял, като отстъпва само на ChatGPT и Microsoft Copilot. В същото време Gemini продължава да се развива по-бързо от конкурентите си и непрекъснато набира популярност: той е на 4-то място по приток на нови потребители, като сред известните чатботове по-бързо расте само Claude. В тази статия ще разгледаме историята на Gemini, настоящите модели, техните характеристики и ограничения.

Кратка история на Google Gemini

Google е пионер в архитектурата на големите езикови модели и се опира на своите солидни изследвания, за да разработва собствени модели на изкуствен интелект.

  • 2017: Изследователите на Google представят архитектурата на трансформатора, която е в основата на много от днешните големи езикови модели.
  • 2020: Компанията представя Meena, базиран на невронна мрежа чатбот с 2,6 милиарда параметри, за който Google твърди, че превъзхожда всички други съществуващи по това време чатботове.
  • 2021: Meena се преименува на LaMDA (съкращение от Language Model for Dialogue Applications - езиков модел за диалогови приложения), тъй като данните и изчислителната му мощ се увеличават.
  • 2022 г.: Пуснат е нов езиков модел, наречен PaLM (Pathways Language Model), с по-усъвършенствани възможности в сравнение с LaMDA.
  • 2023: През първото тримесечие на годината е пуснат чатбот, наречен Google Bard, който се поддържа от олекотена и оптимизирана версия на LaMDA. След това, през второто тримесечие, те въвеждат PaLM 2, който се отличава с подобрено кодиране, многоезични възможности и подобрени умения за разсъждаване, които Bard след това приема. И накрая, през последното тримесечие Google обяви Gemini 1.0.
  • 2024: Google преименува Bard на Gemini и обновява своите мултимодални модели за изкуствен интелект до версия 1.5. Моделите Gemini 2.0 са представени през декември.

През април 2024 г. главният изпълнителен директор на Google DeepMind Демис Хасабис заявява, че с течение на времето компанията ще похарчи повече от 100 млрд. долара за разработване на технологии за изкуствен интелект.

Демис Хасабис

Демис Хасабис

Отличителни черти на Gemini
 

Всеки чатбот има ограничени познания за скорошни събития, тъй като данните за обучението му обхващат само кратък период от време. Крайната дата в контекста на чатботовете се отнася до момента, до който моделът е бил обучен на данни и може да предостави информация. Например, ако чатботът има крайна дата октомври 2023 г., това означава, че всички знания и данни, до които има достъп, са актуални само до тази дата. Всички събития, разработки или промени, които са настъпили след тази дата, няма да бъдат отразени в отговорите на чатбота. Това ограничение е важно да бъде разбрано от потребителите, тъй като то влияе върху точността и актуалността на предоставяната информация, особено в бързо променящи се области като технологиите, политиката или актуалните събития. Въпреки това Gemini, може да заобиколи това ограничение, като получава достъп и обработва информация от онлайн търсения чрез Google Search, предоставяйки по-актуални отговори.

Следователно на потребителите може да се наложи да проверяват информация от по-нови източници, ако търсят най-новите актуализации или прозрения. Понякога Gemini ви показва източници и свързано съдържание в рамките на и под отговора си. Те включват уеб източници с подобна информация и връзки, за да можете да се задълбочите. Gemini е проектиран да генерира оригинално съдържание, но ако директно цитира надълго и нашироко дадена уеб страница, ще видите кавички с цитирания източник и връзка към тази страница. Източниците и свързаното с тях съдържание може да включват уебсайтове, които Gemini е цитирала или които се отнасят до части от нейния отговор. Ако отговорът на Gemini включва миниатюра на изображение от уеб, ще бъде показан източникът и ще бъде предоставена директна връзка към него.

Gemini показва снимки на Ню Йорк

Gemini е проектиран мултимодално от самото начало, което означава, че е обучен за работа с различни типове данни, и сега може безпроблемно да работи с различни типове съдържание. Както можете да видите на снимката по-горе, ботът може да включва изображения в отговорите си. Gemini може да разбира текст, аудио, видео фрагменти, ръкописни бележки, графики, диаграми, може да идентифицира обекти на снимки и освен това може да генерира изображения с помощта на Imagen 3, най-усъвършенствания модел на Google за преобразуване на текст в изображение.

Чатботът има и широки многоезични възможности, тъй като е достъпен на 46 различни езика.

Текущи модели, техните силни страни и възможности

Gemini предлага различни модели, които са оптимизирани за конкретни случаи на употреба. Ето кратък преглед на наличните варианти:

МоделВходИзходОписание

Gemini 2.0 Flash

Аудио, изображения, видеоклипове и текстТекст, изображения (очаквайте скоро) и аудио (очаквайте скоро)Функции от следващо поколение, скорост и мултимодално генериране за разнообразни задачи

Gemini 2.0 Flash Thinking

Текст, изображенияТекстУсъвършенстван модел на разсъждение, който е отличен в областта на науката и математиката

Gemini 1.5 Flash

Аудио, изображения, видеоклипове и текстТекстБърза и гъвкава работа с разнообразни задачи

Gemini 1.5 Flash-8B

Аудио, изображения, видеоклипове и текстТекстЗадачи с голям обем и ниска интелигентност

Gemini 1.5 Pro

Аудио, изображения, видеоклипове и текстТекстСложни задачи за разсъждение, изискващи повече интелигентност

Gemini 1.5 Flash се предлага с контекстен прозорец с 1 милион токена, а Gemini 1.5 Pro - с контекстен прозорец с 2 милиона токена, който е най-дългият от всички големи езикови модели.

Един токен се равнява на около 4 символа за моделите Gemini. 100 токена са около 60-80 английски думи.

На практика 1 милион токена ще изглеждат така:

  • 50 000 реда код (със стандартните 80 символа на ред).
  • Транскрипции на над 200 средно дълги епизода на подкаст.
  • 8 средно дълги английски романа.
  • Всички текстови съобщения, които сте изпратили през последните 5 години.

Gemini 1.5 Flash and Flash-8B

Ограничение на входните токени1,048,576
Ограничение на изходните токени8,192
Максимален брой изображения3,600
Максимална дължина на видеоклипа1 час
Максимална дължина на звукаПриблизително 9,5 часа

Gemini 1.5 Pro постига почти перфектно извличане на информация при задачи за извличане на дълъг контекст в различни модалности, като разкрива възможността за точна обработка на дълги документи, хиляди редове код, часове аудио и видео и др.

Gemini 1.5 Pro

Ограничение на входните токени2,097,152
Ограничение на изходните токени8,192
Максимален брой изображения7,200
Максимална дължина на видеоклипа2 часа
Максимална дължина на звукаПриблизително 19 часа

Всяко изображение се равнява на 258 токена. Поддържани типове изображения:

  • PNG
  • WEBP
  • JPEG
  • HEIC
  • HEIF

Въпреки че няма конкретни ограничения за броя на пикселите в изображението освен контекстния прозорец на модела, по-големите изображения се мащабират до максимална разделителна способност 3072x3072, като се запазва оригиналното им съотношение на страните, а по-малките изображения се мащабират до 768x768 пиксела.

Възможности за виждане:

  • Поставяйте надписи и отговаряйте на въпроси за изображения.
  • Транскрибирайте и разсъждавайте върху PDF файлове, включително дълги документи с до 2 милиона токена контекстен прозорец.
  • Описвайте, сегментирайте и извличайте информация от видеоклипове, включително визуални кадри и аудио, с дължина до 90 минути.
Gemini успява да разпознае правилно цялото ръкописно съдържание и да провери аргументацията.

Gemini успява да разпознае правилно цялото ръкописно съдържание и да провери аргументацията.

Аудио възможностите на Gemini:

  • Описвайте, обобщавайте или отговаряйте на въпроси относно аудиосъдържанието.
  • Предоставяне на транскрипция на аудиозаписа.
  • Предоставяне на отговори или транскрипция за конкретен сегмент от аудиозаписа.

Поддържани аудио формати:

  • WAV
  • MP3
  • FLAC
  • OGG Vorbis
  • AIFF
  • AAC

Всяка секунда аудио се равнява на 25 токена; например, една минута аудио се представя като 1500 токена.

Gemini 2.0 Flash

Ограничение на входните токени1,048,576
Ограничение на изходните токени8,192

Gemini 2.0 Flash е най-мощният и универсален модел от семейството Gemini. Той може естествено да създава изображения и да генерира реч, а когато става въпрос за производителност, той превъзхожда другите модели в почти всички ключови показатели. Убедете се сами.

ВъзможностиБенчмаркОписаниеGemini 1.5 FlashGemini 1.5 ProGemini 2.0 Flash
ОбщMMLU-ProОценява доколко добре моделите за машинно обучение разбират естествения език67.3%75.8%76.4%
КодNatural2CodeГенериране на код в Python, Java, C++, JS, Go79.8%85.4%92.9%
КодBird-SQL (Dev)Оценява превръщането на въпроси на естествен език в изпълним SQL45.6%54.4%56.9%
ФактологичностFACTS GroundingВъзможност за предоставяне на фактически правилни отговори на документи и разнообразни заявки на потребителите82.9%80.0%83.6%
МатематикаMATHТрудни математически задачи (включително алгебра, геометрия, предварителен разчет и други)77.9%86.5%89.7%
МатематикаHiddenMathМатематически задачи на състезателно ниво47.2%52.0%63.0%
РазсъждаванеGPQA (diamond)Предизвикателен набор от данни с въпроси, написани от експерти в областта на биологията, физиката и химията51.0%59.1%62.1%
ИзображениеMMMUМултидисциплинарни проблеми за разбиране и разсъждаване на ниво колеж62.3%65.9%70.7%
АудиоCoVoST2 (21 lang)Автоматичен превод на реч37.440.139.2
ВидеоEgoSchema (test)Видео анализ66.8%71.2%71.5%

Gemini 2.0 Flash Thinking съчетава бързина и производителност, демонстрирайки забележителна компетентност при решаването на сложни задачи в областта на математиката и науката. Контекстният прозорец с един милион токена позволява по-задълбочен анализ на дълъг текст. Подобреното мислене осигурява по-голяма съгласуваност между мислите и отговорите.

Gemini 2.0 Flash Thinking

Ограничение на входните токени1,048,576
Ограничение на изходните токени65,536

Обърнете внимание на огромния прозорец на изходния токен. Той позволява на модела не само да обработва дълги заявки, но и да връща обширни отговори, което може да е полезно например за генериране на големи части от кода.

Вижте как Gemini 2.0 Flash Thinking надминава Gemini 1.5 Pro и Gemini 2.0 в областта на математиката, науката и мултимодалните разсъждения. Той може да не е толкова универсален като тези два модела като цяло, но в тези специфични области Gemini 2.0 Flash Thinking е несравним.

Математика, природни науки и мислене

Математика, природни науки и мислене

Математика и природни науки

Математика и природни науки

Критика

Чатботът Gemini имаше тежък старт, когато беше пуснат през 2023 г. Разработчиците твърде много бързаха да пуснат конкурент на ChatGPT. И затова пуснатата версия на чатбота беше пълна с грешки. Потребителите се оплакваха от голям брой фактологични грешки и неточности в отговорите на бота.

Един от най-известните беше спорът за генерирането на изображения. Gemini се опитваше да представи максимално расово разнообразие дори там, където то беше неподходящо. Според чатбота така са изглеждали германските войници през 1943 г:

Германски войници през 1943 г., генерирани от Gemini

А ето как са изглеждали американските сенатори от XIX век:

Американски сенатори от XIX в., генерирани от Gemini

Заради недоволството на потребителите акциите на компанията паднаха с 4,5%, което приблизително съответства на загуба от 90 млн. долара. Разработчиците трябваше също така временно да блокират възможността за генериране на изображения на хора.

След споровете около генерирането на изображения някои потребители започнаха да обвиняват текстовите отговори на Gemini в пристрастност към левицата. В един такъв пример Gemini заяви, че е „трудно да се каже категорично“ дали Елон Мъск или нацисткият диктатор Адолф Хитлер имат по-голямо отрицателно въздействие върху обществото. Освен това други потребители отбелязаха, че Gemini изглежда е предпочитал леви политици и въпроси като позитивните действия и правото на аборт, докато не е бил склонен да подкрепя десни фигури, консумацията на месо и изкопаемите горива.

Но трябва да се каже, че всички тези трудности вече са предимно зад гърба ни. Сега Gemini няма никакви проблеми и е един от най-успешните и популярни чатботове в света.