Gemini: преглед на иновативните му функции и модели
Gemini е семейство чатботове, базирани на изкуствен интелект, разработени от Google. В момента Gemini е на трето място сред всички чатботове по пазарен дял, като отстъпва само на ChatGPT и Microsoft Copilot. В същото време Gemini продължава да се развива по-бързо от конкурентите си и непрекъснато набира популярност: той е на 4-то място по приток на нови потребители, като сред известните чатботове по-бързо расте само Claude. В тази статия ще разгледаме историята на Gemini, настоящите модели, техните характеристики и ограничения.
Кратка история на Google Gemini
Google е пионер в архитектурата на големите езикови модели и се опира на своите солидни изследвания, за да разработва собствени модели на изкуствен интелект.
- 2017: Изследователите на Google представят архитектурата на трансформатора, която е в основата на много от днешните големи езикови модели.
- 2020: Компанията представя Meena, базиран на невронна мрежа чатбот с 2,6 милиарда параметри, за който Google твърди, че превъзхожда всички други съществуващи по това време чатботове.
- 2021: Meena се преименува на LaMDA (съкращение от Language Model for Dialogue Applications - езиков модел за диалогови приложения), тъй като данните и изчислителната му мощ се увеличават.
- 2022 г.: Пуснат е нов езиков модел, наречен PaLM (Pathways Language Model), с по-усъвършенствани възможности в сравнение с LaMDA.
- 2023: През първото тримесечие на годината е пуснат чатбот, наречен Google Bard, който се поддържа от олекотена и оптимизирана версия на LaMDA. След това, през второто тримесечие, те въвеждат PaLM 2, който се отличава с подобрено кодиране, многоезични възможности и подобрени умения за разсъждаване, които Bard след това приема. И накрая, през последното тримесечие Google обяви Gemini 1.0.
- 2024: Google преименува Bard на Gemini и обновява своите мултимодални модели за изкуствен интелект до версия 1.5. Моделите Gemini 2.0 са представени през декември.
През април 2024 г. главният изпълнителен директор на Google DeepMind Демис Хасабис заявява, че с течение на времето компанията ще похарчи повече от 100 млрд. долара за разработване на технологии за изкуствен интелект.

Демис Хасабис
Отличителни черти на Gemini
Всеки чатбот има ограничени познания за скорошни събития, тъй като данните за обучението му обхващат само кратък период от време. Крайната дата в контекста на чатботовете се отнася до момента, до който моделът е бил обучен на данни и може да предостави информация. Например, ако чатботът има крайна дата октомври 2023 г., това означава, че всички знания и данни, до които има достъп, са актуални само до тази дата. Всички събития, разработки или промени, които са настъпили след тази дата, няма да бъдат отразени в отговорите на чатбота. Това ограничение е важно да бъде разбрано от потребителите, тъй като то влияе върху точността и актуалността на предоставяната информация, особено в бързо променящи се области като технологиите, политиката или актуалните събития. Въпреки това Gemini, може да заобиколи това ограничение, като получава достъп и обработва информация от онлайн търсения чрез Google Search, предоставяйки по-актуални отговори.
Следователно на потребителите може да се наложи да проверяват информация от по-нови източници, ако търсят най-новите актуализации или прозрения. Понякога Gemini ви показва източници и свързано съдържание в рамките на и под отговора си. Те включват уеб източници с подобна информация и връзки, за да можете да се задълбочите. Gemini е проектиран да генерира оригинално съдържание, но ако директно цитира надълго и нашироко дадена уеб страница, ще видите кавички с цитирания източник и връзка към тази страница. Източниците и свързаното с тях съдържание може да включват уебсайтове, които Gemini е цитирала или които се отнасят до части от нейния отговор. Ако отговорът на Gemini включва миниатюра на изображение от уеб, ще бъде показан източникът и ще бъде предоставена директна връзка към него.

Gemini е проектиран мултимодално от самото начало, което означава, че е обучен за работа с различни типове данни, и сега може безпроблемно да работи с различни типове съдържание. Както можете да видите на снимката по-горе, ботът може да включва изображения в отговорите си. Gemini може да разбира текст, аудио, видео фрагменти, ръкописни бележки, графики, диаграми, може да идентифицира обекти на снимки и освен това може да генерира изображения с помощта на Imagen 3, най-усъвършенствания модел на Google за преобразуване на текст в изображение.
Чатботът има и широки многоезични възможности, тъй като е достъпен на 46 различни езика.
Текущи модели, техните силни страни и възможности
Gemini предлага различни модели, които са оптимизирани за конкретни случаи на употреба. Ето кратък преглед на наличните варианти:
| Модел | Вход | Изход | Описание |
Gemini 2.0 Flash | Аудио, изображения, видеоклипове и текст | Текст, изображения (очаквайте скоро) и аудио (очаквайте скоро) | Функции от следващо поколение, скорост и мултимодално генериране за разнообразни задачи |
Gemini 2.0 Flash Thinking | Текст, изображения | Текст | Усъвършенстван модел на разсъждение, който е отличен в областта на науката и математиката |
Gemini 1.5 Flash | Аудио, изображения, видеоклипове и текст | Текст | Бърза и гъвкава работа с разнообразни задачи |
Gemini 1.5 Flash-8B | Аудио, изображения, видеоклипове и текст | Текст | Задачи с голям обем и ниска интелигентност |
Gemini 1.5 Pro | Аудио, изображения, видеоклипове и текст | Текст | Сложни задачи за разсъждение, изискващи повече интелигентност |
Gemini 1.5 Flash се предлага с контекстен прозорец с 1 милион токена, а Gemini 1.5 Pro - с контекстен прозорец с 2 милиона токена, който е най-дългият от всички големи езикови модели.
Един токен се равнява на около 4 символа за моделите Gemini. 100 токена са около 60-80 английски думи.
На практика 1 милион токена ще изглеждат така:
- 50 000 реда код (със стандартните 80 символа на ред).
- Транскрипции на над 200 средно дълги епизода на подкаст.
- 8 средно дълги английски романа.
- Всички текстови съобщения, които сте изпратили през последните 5 години.
Gemini 1.5 Flash and Flash-8B | |
| Ограничение на входните токени | 1,048,576 |
| Ограничение на изходните токени | 8,192 |
| Максимален брой изображения | 3,600 |
| Максимална дължина на видеоклипа | 1 час |
| Максимална дължина на звука | Приблизително 9,5 часа |
Gemini 1.5 Pro постига почти перфектно извличане на информация при задачи за извличане на дълъг контекст в различни модалности, като разкрива възможността за точна обработка на дълги документи, хиляди редове код, часове аудио и видео и др.
Gemini 1.5 Pro | |
| Ограничение на входните токени | 2,097,152 |
| Ограничение на изходните токени | 8,192 |
| Максимален брой изображения | 7,200 |
| Максимална дължина на видеоклипа | 2 часа |
| Максимална дължина на звука | Приблизително 19 часа |
Всяко изображение се равнява на 258 токена. Поддържани типове изображения:
- PNG
- WEBP
- JPEG
- HEIC
- HEIF
Въпреки че няма конкретни ограничения за броя на пикселите в изображението освен контекстния прозорец на модела, по-големите изображения се мащабират до максимална разделителна способност 3072x3072, като се запазва оригиналното им съотношение на страните, а по-малките изображения се мащабират до 768x768 пиксела.
Възможности за виждане:
- Поставяйте надписи и отговаряйте на въпроси за изображения.
- Транскрибирайте и разсъждавайте върху PDF файлове, включително дълги документи с до 2 милиона токена контекстен прозорец.
- Описвайте, сегментирайте и извличайте информация от видеоклипове, включително визуални кадри и аудио, с дължина до 90 минути.

Gemini успява да разпознае правилно цялото ръкописно съдържание и да провери аргументацията.
Аудио възможностите на Gemini:
- Описвайте, обобщавайте или отговаряйте на въпроси относно аудиосъдържанието.
- Предоставяне на транскрипция на аудиозаписа.
- Предоставяне на отговори или транскрипция за конкретен сегмент от аудиозаписа.
Поддържани аудио формати:
- WAV
- MP3
- FLAC
- OGG Vorbis
- AIFF
- AAC
Всяка секунда аудио се равнява на 25 токена; например, една минута аудио се представя като 1500 токена.
Gemini 2.0 Flash | |
| Ограничение на входните токени | 1,048,576 |
| Ограничение на изходните токени | 8,192 |
Gemini 2.0 Flash е най-мощният и универсален модел от семейството Gemini. Той може естествено да създава изображения и да генерира реч, а когато става въпрос за производителност, той превъзхожда другите модели в почти всички ключови показатели. Убедете се сами.
| Възможности | Бенчмарк | Описание | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 2.0 Flash |
| Общ | MMLU-Pro | Оценява доколко добре моделите за машинно обучение разбират естествения език | 67.3% | 75.8% | 76.4% |
| Код | Natural2Code | Генериране на код в Python, Java, C++, JS, Go | 79.8% | 85.4% | 92.9% |
| Код | Bird-SQL (Dev) | Оценява превръщането на въпроси на естествен език в изпълним SQL | 45.6% | 54.4% | 56.9% |
| Фактологичност | FACTS Grounding | Възможност за предоставяне на фактически правилни отговори на документи и разнообразни заявки на потребителите | 82.9% | 80.0% | 83.6% |
| Математика | MATH | Трудни математически задачи (включително алгебра, геометрия, предварителен разчет и други) | 77.9% | 86.5% | 89.7% |
| Математика | HiddenMath | Математически задачи на състезателно ниво | 47.2% | 52.0% | 63.0% |
| Разсъждаване | GPQA (diamond) | Предизвикателен набор от данни с въпроси, написани от експерти в областта на биологията, физиката и химията | 51.0% | 59.1% | 62.1% |
| Изображение | MMMU | Мултидисциплинарни проблеми за разбиране и разсъждаване на ниво колеж | 62.3% | 65.9% | 70.7% |
| Аудио | CoVoST2 (21 lang) | Автоматичен превод на реч | 37.4 | 40.1 | 39.2 |
| Видео | EgoSchema (test) | Видео анализ | 66.8% | 71.2% | 71.5% |
Gemini 2.0 Flash Thinking съчетава бързина и производителност, демонстрирайки забележителна компетентност при решаването на сложни задачи в областта на математиката и науката. Контекстният прозорец с един милион токена позволява по-задълбочен анализ на дълъг текст. Подобреното мислене осигурява по-голяма съгласуваност между мислите и отговорите.
Gemini 2.0 Flash Thinking | |
| Ограничение на входните токени | 1,048,576 |
| Ограничение на изходните токени | 65,536 |
Обърнете внимание на огромния прозорец на изходния токен. Той позволява на модела не само да обработва дълги заявки, но и да връща обширни отговори, което може да е полезно например за генериране на големи части от кода.
Вижте как Gemini 2.0 Flash Thinking надминава Gemini 1.5 Pro и Gemini 2.0 в областта на математиката, науката и мултимодалните разсъждения. Той може да не е толкова универсален като тези два модела като цяло, но в тези специфични области Gemini 2.0 Flash Thinking е несравним.

Математика, природни науки и мислене

Математика и природни науки
Критика
Чатботът Gemini имаше тежък старт, когато беше пуснат през 2023 г. Разработчиците твърде много бързаха да пуснат конкурент на ChatGPT. И затова пуснатата версия на чатбота беше пълна с грешки. Потребителите се оплакваха от голям брой фактологични грешки и неточности в отговорите на бота.
Един от най-известните беше спорът за генерирането на изображения. Gemini се опитваше да представи максимално расово разнообразие дори там, където то беше неподходящо. Според чатбота така са изглеждали германските войници през 1943 г:

А ето как са изглеждали американските сенатори от XIX век:

Заради недоволството на потребителите акциите на компанията паднаха с 4,5%, което приблизително съответства на загуба от 90 млн. долара. Разработчиците трябваше също така временно да блокират възможността за генериране на изображения на хора.
След споровете около генерирането на изображения някои потребители започнаха да обвиняват текстовите отговори на Gemini в пристрастност към левицата. В един такъв пример Gemini заяви, че е „трудно да се каже категорично“ дали Елон Мъск или нацисткият диктатор Адолф Хитлер имат по-голямо отрицателно въздействие върху обществото. Освен това други потребители отбелязаха, че Gemini изглежда е предпочитал леви политици и въпроси като позитивните действия и правото на аборт, докато не е бил склонен да подкрепя десни фигури, консумацията на месо и изкопаемите горива.
Но трябва да се каже, че всички тези трудности вече са предимно зад гърба ни. Сега Gemini няма никакви проблеми и е един от най-успешните и популярни чатботове в света.