Gemini: преглед на иновативните му функции и модели

Gemini е семейство чатботове, базирани на изкуствен интелект, разработени от Google. В момента Gemini е на трето място сред всички чатботове по пазарен дял, като отстъпва само на ChatGPT и Microsoft Copilot. В същото време Gemini продължава да се развива по-бързо от конкурентите си и непрекъснато набира популярност: той е на 4-то място по приток на нови потребители, като сред известните чатботове по-бързо расте само Claude. В тази статия ще разгледаме историята на Gemini, настоящите модели, техните характеристики и ограничения.

Кратка история на Google Gemini

Google е пионер в архитектурата на големите езикови модели и се опира на своите солидни изследвания, за да разработва собствени модели на изкуствен интелект.

2017: Изследователите на Google представят архитектурата на трансформатора, която е в основата на много от днешните големи езикови модели.
2020: Компанията представя Meena, базиран на невронна мрежа чатбот с 2,6 милиарда параметри, за който Google твърди, че превъзхожда всички други съществуващи по това време чатботове.
2021: Meena се преименува на LaMDA (съкращение от Language Model for Dialogue Applications - езиков модел за диалогови приложения), тъй като данните и изчислителната му мощ се увеличават.
2022 г.: Пуснат е нов езиков модел, наречен PaLM (Pathways Language Model), с по-усъвършенствани възможности в сравнение с LaMDA.
2023: През първото тримесечие на годината е пуснат чатбот, наречен Google Bard, който се поддържа от олекотена и оптимизирана версия на LaMDA. След това, през второто тримесечие, те въвеждат PaLM 2, който се отличава с подобрено кодиране, многоезични възможности и подобрени умения за разсъждаване, които Bard след това приема. И накрая, през последното тримесечие Google обяви Gemini 1.0.
2024: Google преименува Bard на Gemini и обновява своите мултимодални модели за изкуствен интелект до версия 1.5. Моделите Gemini 2.0 са представени през декември.

През април 2024 г. главният изпълнителен директор на Google DeepMind Демис Хасабис заявява, че с течение на времето компанията ще похарчи повече от 100 млрд. долара за разработване на технологии за изкуствен интелект.

Демис Хасабис

Отличителни черти на Gemini

Всеки чатбот има ограничени познания за скорошни събития, тъй като данните за обучението му обхващат само кратък период от време. Крайната дата в контекста на чатботовете се отнася до момента, до който моделът е бил обучен на данни и може да предостави информация. Например, ако чатботът има крайна дата октомври 2023 г., това означава, че всички знания и данни, до които има достъп, са актуални само до тази дата. Всички събития, разработки или промени, които са настъпили след тази дата, няма да бъдат отразени в отговорите на чатбота. Това ограничение е важно да бъде разбрано от потребителите, тъй като то влияе върху точността и актуалността на предоставяната информация, особено в бързо променящи се области като технологиите, политиката или актуалните събития. Въпреки това Gemini, може да заобиколи това ограничение, като получава достъп и обработва информация от онлайн търсения чрез Google Search, предоставяйки по-актуални отговори.

Следователно на потребителите може да се наложи да проверяват информация от по-нови източници, ако търсят най-новите актуализации или прозрения. Понякога Gemini ви показва източници и свързано съдържание в рамките на и под отговора си. Те включват уеб източници с подобна информация и връзки, за да можете да се задълбочите. Gemini е проектиран да генерира оригинално съдържание, но ако директно цитира надълго и нашироко дадена уеб страница, ще видите кавички с цитирания източник и връзка към тази страница. Източниците и свързаното с тях съдържание може да включват уебсайтове, които Gemini е цитирала или които се отнасят до части от нейния отговор. Ако отговорът на Gemini включва миниатюра на изображение от уеб, ще бъде показан източникът и ще бъде предоставена директна връзка към него.

Gemini е проектиран мултимодално от самото начало, което означава, че е обучен за работа с различни типове данни, и сега може безпроблемно да работи с различни типове съдържание. Както можете да видите на снимката по-горе, ботът може да включва изображения в отговорите си. Gemini може да разбира текст, аудио, видео фрагменти, ръкописни бележки, графики, диаграми, може да идентифицира обекти на снимки и освен това може да генерира изображения с помощта на Imagen 3, най-усъвършенствания модел на Google за преобразуване на текст в изображение.

Чатботът има и широки многоезични възможности, тъй като е достъпен на 46 различни езика.

Текущи модели, техните силни страни и възможности

Gemini предлага различни модели, които са оптимизирани за конкретни случаи на употреба. Ето кратък преглед на наличните варианти:

Модел	Вход	Изход	Описание
Gemini 2.0 Flash	Аудио, изображения, видеоклипове и текст	Текст, изображения (очаквайте скоро) и аудио (очаквайте скоро)	Функции от следващо поколение, скорост и мултимодално генериране за разнообразни задачи
Gemini 2.0 Flash Thinking	Текст, изображения	Текст	Усъвършенстван модел на разсъждение, който е отличен в областта на науката и математиката
Gemini 1.5 Flash	Аудио, изображения, видеоклипове и текст	Текст	Бърза и гъвкава работа с разнообразни задачи
Gemini 1.5 Flash-8B	Аудио, изображения, видеоклипове и текст	Текст	Задачи с голям обем и ниска интелигентност
Gemini 1.5 Pro	Аудио, изображения, видеоклипове и текст	Текст	Сложни задачи за разсъждение, изискващи повече интелигентност

Gemini 1.5 Flash се предлага с контекстен прозорец с 1 милион токена, а Gemini 1.5 Pro - с контекстен прозорец с 2 милиона токена, който е най-дългият от всички големи езикови модели.

Един токен се равнява на около 4 символа за моделите Gemini. 100 токена са около 60-80 английски думи.

На практика 1 милион токена ще изглеждат така:

50 000 реда код (със стандартните 80 символа на ред).
Транскрипции на над 200 средно дълги епизода на подкаст.
8 средно дълги английски романа.
Всички текстови съобщения, които сте изпратили през последните 5 години.

Gemini 1.5 Flash and Flash-8B
Ограничение на входните токени	1,048,576
Ограничение на изходните токени	8,192
Максимален брой изображения	3,600
Максимална дължина на видеоклипа	1 час
Максимална дължина на звука	Приблизително 9,5 часа

Gemini 1.5 Pro постига почти перфектно извличане на информация при задачи за извличане на дълъг контекст в различни модалности, като разкрива възможността за точна обработка на дълги документи, хиляди редове код, часове аудио и видео и др.

Gemini 1.5 Pro
Ограничение на входните токени	2,097,152
Ограничение на изходните токени	8,192
Максимален брой изображения	7,200
Максимална дължина на видеоклипа	2 часа
Максимална дължина на звука	Приблизително 19 часа

Всяко изображение се равнява на 258 токена. Поддържани типове изображения:

PNG
WEBP
JPEG
HEIC
HEIF

Въпреки че няма конкретни ограничения за броя на пикселите в изображението освен контекстния прозорец на модела, по-големите изображения се мащабират до максимална разделителна способност 3072x3072, като се запазва оригиналното им съотношение на страните, а по-малките изображения се мащабират до 768x768 пиксела.

Възможности за виждане:

Поставяйте надписи и отговаряйте на въпроси за изображения.
Транскрибирайте и разсъждавайте върху PDF файлове, включително дълги документи с до 2 милиона токена контекстен прозорец.
Описвайте, сегментирайте и извличайте информация от видеоклипове, включително визуални кадри и аудио, с дължина до 90 минути.

Gemini успява да разпознае правилно цялото ръкописно съдържание и да провери аргументацията.

Аудио възможностите на Gemini:

Описвайте, обобщавайте или отговаряйте на въпроси относно аудиосъдържанието.
Предоставяне на транскрипция на аудиозаписа.
Предоставяне на отговори или транскрипция за конкретен сегмент от аудиозаписа.

Поддържани аудио формати:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

Всяка секунда аудио се равнява на 25 токена; например, една минута аудио се представя като 1500 токена.

Gemini 2.0 Flash
Ограничение на входните токени	1,048,576
Ограничение на изходните токени	8,192

Gemini 2.0 Flash е най-мощният и универсален модел от семейството Gemini. Той може естествено да създава изображения и да генерира реч, а когато става въпрос за производителност, той превъзхожда другите модели в почти всички ключови показатели. Убедете се сами.

Възможности	Бенчмарк	Описание	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
Общ	MMLU-Pro	Оценява доколко добре моделите за машинно обучение разбират естествения език	67.3%	75.8%	76.4%
Код	Natural2Code	Генериране на код в Python, Java, C++, JS, Go	79.8%	85.4%	92.9%
Код	Bird-SQL (Dev)	Оценява превръщането на въпроси на естествен език в изпълним SQL	45.6%	54.4%	56.9%
Фактологичност	FACTS Grounding	Възможност за предоставяне на фактически правилни отговори на документи и разнообразни заявки на потребителите	82.9%	80.0%	83.6%
Математика	MATH	Трудни математически задачи (включително алгебра, геометрия, предварителен разчет и други)	77.9%	86.5%	89.7%
Математика	HiddenMath	Математически задачи на състезателно ниво	47.2%	52.0%	63.0%
Разсъждаване	GPQA (diamond)	Предизвикателен набор от данни с въпроси, написани от експерти в областта на биологията, физиката и химията	51.0%	59.1%	62.1%
Изображение	MMMU	Мултидисциплинарни проблеми за разбиране и разсъждаване на ниво колеж	62.3%	65.9%	70.7%
Аудио	CoVoST2 (21 lang)	Автоматичен превод на реч	37.4	40.1	39.2
Видео	EgoSchema (test)	Видео анализ	66.8%	71.2%	71.5%

Gemini 2.0 Flash Thinking съчетава бързина и производителност, демонстрирайки забележителна компетентност при решаването на сложни задачи в областта на математиката и науката. Контекстният прозорец с един милион токена позволява по-задълбочен анализ на дълъг текст. Подобреното мислене осигурява по-голяма съгласуваност между мислите и отговорите.

Gemini 2.0 Flash Thinking
Ограничение на входните токени	1,048,576
Ограничение на изходните токени	65,536

Обърнете внимание на огромния прозорец на изходния токен. Той позволява на модела не само да обработва дълги заявки, но и да връща обширни отговори, което може да е полезно например за генериране на големи части от кода.

Вижте как Gemini 2.0 Flash Thinking надминава Gemini 1.5 Pro и Gemini 2.0 в областта на математиката, науката и мултимодалните разсъждения. Той може да не е толкова универсален като тези два модела като цяло, но в тези специфични области Gemini 2.0 Flash Thinking е несравним.

Математика, природни науки и мислене

Математика и природни науки

Критика

Чатботът Gemini имаше тежък старт, когато беше пуснат през 2023 г. Разработчиците твърде много бързаха да пуснат конкурент на ChatGPT. И затова пуснатата версия на чатбота беше пълна с грешки. Потребителите се оплакваха от голям брой фактологични грешки и неточности в отговорите на бота.

Един от най-известните беше спорът за генерирането на изображения. Gemini се опитваше да представи максимално расово разнообразие дори там, където то беше неподходящо. Според чатбота така са изглеждали германските войници през 1943 г:

Германски войници през 1943 г., генерирани от Gemini

А ето как са изглеждали американските сенатори от XIX век:

Американски сенатори от XIX в., генерирани от Gemini

Заради недоволството на потребителите акциите на компанията паднаха с 4,5%, което приблизително съответства на загуба от 90 млн. долара. Разработчиците трябваше също така временно да блокират възможността за генериране на изображения на хора.

След споровете около генерирането на изображения някои потребители започнаха да обвиняват текстовите отговори на Gemini в пристрастност към левицата. В един такъв пример Gemini заяви, че е „трудно да се каже категорично“ дали Елон Мъск или нацисткият диктатор Адолф Хитлер имат по-голямо отрицателно въздействие върху обществото. Освен това други потребители отбелязаха, че Gemini изглежда е предпочитал леви политици и въпроси като позитивните действия и правото на аборт, докато не е бил склонен да подкрепя десни фигури, консумацията на месо и изкопаемите горива.

Но трябва да се каже, че всички тези трудности вече са предимно зад гърба ни. Сега Gemini няма никакви проблеми и е един от най-успешните и популярни чатботове в света.