Gemini: обзор инновационных функций и моделей

Gemini - это семейство чат-ботов на основе искусственного интеллекта, разработанное компанией Google. На данный момент Gemini занимает третье место среди всех чат-ботов по доле рынка, уступая только ChatGPT и Microsoft Copilot. В то же время Gemini продолжает расти быстрее своих конкурентов и уверенно набирает популярность: он занимает 4-е место по количеству новых пользователей, а среди известных чат-ботов быстрее растет только Claude. В этой статье мы рассмотрим историю Gemini, текущие модели, их особенности и ограничения.

Краткая история Google Gemini

Компания Google была пионером в области архитектуры больших языковых моделей и использует результаты своих исследований для разработки собственных моделей искусственного интеллекта.

2017: Исследователи Google представляют архитектуру transformer, которая лежит в основе многих современных больших языковых моделей.
2020: Компания представляет Meena, чатбота на основе нейронной сети с 2,6 млрд параметров, который, по утверждению Google, превосходит все существующие на тот момент чатботы.
2021: Meena переименовывается в LaMDA (сокращение от Language Model for Dialogue Applications) по мере увеличения объема данных и вычислительной мощности.
2022: Выпущена новая языковая модель под названием PaLM (Pathways Language Model), обладающая более широкими возможностями по сравнению с LaMDA.
2023: В первом квартале выпускается чат-бот под названием Google Bard, в основе которого лежит облегченная и оптимизированная версия LaMDA. Затем, во втором квартале, они представляют PaLM 2 с улучшенным кодированием, многоязыковыми возможностями и расширенными навыками рассуждений, которые затем перенимает Бард. И наконец, в последнем квартале Google анонсировала Gemini 1.0.
2024: Google переименовывает Bard в Gemini и обновляет свои мультимодальные модели ИИ до версии 1.5. Модели Gemini 2.0 представлены в декабре.

В апреле 2024 года генеральный директор Google DeepMind Демис Хассабис заявил, что со временем компания потратит более 100 миллиардов долларов на разработку технологий искусственного интеллекта.

Демис Хассабис

Отличительные особенности Gemini

Любой чатбот имеет ограниченные знания о недавних событиях, поскольку его обучающие данные охватывают лишь ограниченный период времени. Дата отсечения в контексте чатботов означает момент времени, до которого модель была обучена на данных и может предоставлять информацию. Например, если у чатбота дата отсечения - октябрь 2023 года, это означает, что все знания и данные, к которым он имеет доступ, актуальны только до этой даты. Любые события, события или изменения, произошедшие после этой даты, не будут отражены в ответах чатбота. Это ограничение важно понимать пользователям, поскольку оно влияет на точность и актуальность предоставляемой информации, особенно в таких быстро меняющихся областях, как технологии, политика или текущие события. Однако Gemini может обойти это ограничение, получая доступ и обрабатывая информацию из онлайн-поиска через Google Search, предоставляя более актуальные ответы.

Поэтому пользователям может потребоваться проверить информацию из более свежих источников, если они ищут самые последние обновления или сведения. Иногда Gemini показывает источники и связанный контент внутри и под своим ответом. Они включают в себя веб-источники с похожей информацией и ссылки для более глубокого изучения. Gemini предназначен для создания оригинального контента, но если он напрямую цитирует веб-страницу, вы увидите кавычки с указанием источника и ссылку на эту страницу. Источники и связанный контент могут включать сайты, которые Gemini цитирует или которые относятся к части ее ответа. Если в ответе Gemini есть миниатюра изображения из Интернета, будет указан источник и дана прямая ссылка на него.

Gemini с самого начала был разработан мультимодальным, то есть его обучали на разных типах данных, и теперь он может легко работать с разными типами контента. Как вы можете видеть на картинке выше, бот может включать в свои ответы изображения. Gemini может понимать текст, аудио, видеофрагменты, рукописные заметки, графики, диаграммы, идентифицировать объекты на фотографиях и, кроме того, генерировать изображения с помощью Imagen 3, самой продвинутой модели преобразования текста в изображения Google.

Чатбот также обладает широкими многоязычными возможностями, поскольку доступен на 46 языках.

Текущие модели, их преимущества и возможности

Gemini предлагает различные модели, оптимизированные для конкретных случаев использования. Вот краткий обзор доступных вариантов:

Модель	Ввод	Вывод	Описание
Gemini 2.0 Flash	Аудио, изображения, видео и текст	Текст, изображения (скоро появятся) и аудио (скоро появится)	Функции нового поколения, скорость и мультимодальная генерация для выполнения разнообразных задач
Gemini 2.0 Flash Thinking	Текст, изображения	Текст	Усовершенствованная модель рассуждений, которая отлично справляется с наукой и математикой
Gemini 1.5 Flash	Аудио, изображения, видео и текст	Текст	Быстрая и универсальная работа при выполнении самых разных задач
Gemini 1.5 Flash-8B	Аудио, изображения, видео и текст	Текст	Задачи с высоким объемом и низким уровнем интеллекта
Gemini 1.5 Pro	Аудио, изображения, видео и текст	Текст	Сложные задачи на рассуждение, требующие большего интеллекта

Gemini 1.5 Flash поставляется с контекстным окном на 1 миллион токенов, а Gemini 1.5 Pro - с контекстным окном на 2 миллиона токенов, что является самым большим показателем среди всех больших языковых моделей.

Один токен эквивалентен примерно 4 символам для моделей Gemini. 100 токенов - это примерно 60-80 английских слов.

На практике 1 миллион лексем будет выглядеть как:

50 000 строк кода (при стандартных 80 символах в строке).
Транскрипты более 200 эпизодов подкастов средней длины.
8 английских романов средней длины.
Все текстовые сообщения, которые вы отправили за последние 5 лет.

Gemini 1.5 Flash and Flash-8B
Предел входных токенов	1,048,576
Предел выходных токенов	8,192
Максимальное количество изображений	3,600
Максимальная длина видео	1 час
Максимальная длина аудио	Около 9,5 часов

Gemini 1.5 Pro достигает практически идеального запоминания в задачах поиска длинных контекстов в разных модальностях, открывая возможность точной обработки длинных документов, тысяч строк кода, часов аудио- и видеозаписей и многого другого.

Gemini 1.5 Pro
Предел входных токенов	2,097,152
Предел выходных токенов	8,192
Максимальное количество изображений	7,200
Максимальная длина видео	2 часа
Максимальная длина аудио	Около 19 часов

Каждое изображение эквивалентно 258 токенам. Поддерживаемые типы изображений:

PNG
WEBP
JPEG
HEIC
HEIF

Несмотря на то, что количество пикселей в изображении не ограничивается контекстным окном модели, большие изображения масштабируются до максимального разрешения 3072x3072 с сохранением исходного соотношения сторон, а маленькие - до 768x768 пикселей.

Возможности зрения:

Создание надписей и ответы на вопросы по изображениям.
Транскрибировать и аргументировать PDF-файлы, включая длинные документы с контекстным окном длиной до 2 миллионов токенов.
Описывать, сегментировать и извлекать информацию из видео, включая как визуальные кадры, так и аудио, продолжительностью до 90 минут.

Gemini правильно распознает все рукописное содержимое и проверяет аргументацию.

Аудиовозможности Gemini:

Описывать, обобщать или отвечать на вопросы об аудиоконтенте.
Предоставить транскрипцию аудиозаписи.
Предоставление ответов или транскрипции определенного фрагмента аудиозаписи.

Поддерживаемые аудиоформаты:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

Каждая секунда звука эквивалентна 25 токенам; например, одна минута звука представлена как 1 500 токенов.

Gemini 2.0 Flash
Предел входных токенов	1,048,576
Предел выходных токенов	8,192

Gemini 2.0 Flash - самая мощная и универсальная модель семейства Gemini. Она может создавать изображения и генерировать речь, а по производительности превосходит другие модели практически по всем ключевым показателям. Убедитесь в этом сами.

Возможности	Бенчмарк	Описание	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
Общие сведения	MMLU-Pro	Оценивает, насколько хорошо модели машинного обучения понимают естественный язык	67.3%	75.8%	76.4%
Код	Natural2Code	Генерация кода на Python, Java, C++, JS, Go	79.8%	85.4%	92.9%
Код	Bird-SQL (Dev)	Оценка преобразования вопросов на естественном языке в исполняемый SQL	45.6%	54.4%	56.9%
Фактология	FACTS Grounding	Способность предоставлять правильные с точки зрения фактов ответы на документы и разнообразные запросы пользователей	82.9%	80.0%	83.6%
Математика	MATH	Сложные математические задачи (включая алгебру, геометрию, прекалькулус и другие)	77.9%	86.5%	89.7%
Математика	HiddenMath	Математические задачи соревновательного уровня	47.2%	52.0%	63.0%
Рассуждения	GPQA (diamond)	Набор сложных вопросов, написанных экспертами в области биологии, физики и химии	51.0%	59.1%	62.1%
Изображение	MMMU	Мультидисциплинарные мультимодальные проблемы понимания и рассуждения на уровне колледжа	62.3%	65.9%	70.7%
Аудио	CoVoST2 (21 lang)	Автоматический перевод речи	37.4	40.1	39.2
Видео	EgoSchema (test)	Анализ видео	66.8%	71.2%	71.5%

Gemini 2.0 Flash Thinking сочетает в себе скорость и производительность, демонстрируя удивительную компетентность в решении сложных задач как в математике, так и в естественных науках. Контекстное окно с миллионом токенов позволяет глубже анализировать длинные тексты. Улучшенное мышление обеспечивает большую согласованность между мыслями и ответами.

Gemini 2.0 Flash Thinking
Предел входных токенов	1,048,576
Предел выходных токенов	65,536

Обратите внимание на огромное окно выходных токенов. Оно позволяет модели не только обрабатывать длинные запросы, но и выдавать развернутые ответы, что может пригодиться, например, для генерации больших кусков кода.

Посмотрите, как Gemini 2.0 Flash Thinking превосходит Gemini 1.5 Pro и Gemini 2.0 в математике, науке и мультимодальных рассуждениях. Возможно, он не так универсален, как эти две модели в целом, но в этих конкретных областях Gemini 2.0 Flash Thinking не имеет себе равных.

Математика, естественные науки и рассуждения

Математика и наука

Критика

У чатбота Gemini был тяжелый старт, когда он был выпущен в 2023 году. Разработчики слишком торопились выпустить конкурента ChatGPT. Поэтому в релизной версии чатбота было много ошибок. Пользователи жаловались на большое количество фактических ошибок и неточностей в ответах бота.

Одной из самых громких стала ошибка с генерацией изображений. Gemini пытался представить максимальное расовое разнообразие даже там, где это было неуместно. По мнению чатбота, именно так выглядели немецкие солдаты в 1943 году:

Немецкие солдаты в 1943 году, сгенерированные Gemini

А вот так выглядели сенаторы США 1800-х годов:

Сенаторы США 1800-х годов, сгенерированные Gemini

Из-за недовольства пользователей акции компании упали на 4,5 %, что примерно соответствует убытку в 90 миллионов долларов. Разработчикам также пришлось временно заблокировать возможность генерировать изображения людей.

После споров вокруг генерации изображений некоторые пользователи стали обвинять текстовые ответы Gemini в предвзятом отношении к левым. В одном из таких примеров Gemini заявила, что "трудно однозначно сказать", кто оказал большее негативное влияние на общество - Илон Маск или нацистский диктатор Адольф Гитлер. Кроме того, другие пользователи отметили, что Gemini, по-видимому, отдает предпочтение левым политикам и таким вопросам, как позитивные действия и права на аборты, и в то же время неохотно поддерживает правых деятелей, потребление мяса и ископаемое топливо.

Но надо сказать, что все эти трудности в основном уже позади. Сейчас Gemini не испытывает никаких проблем и является одним из самых успешных и популярных чат-ботов в мире.