Gemini: przegląd jego innowacyjnych funkcji i modeli
Gemini to rodzina chatbotów opartych na sztucznej inteligencji opracowanych przez Google. Obecnie Gemini zajmuje trzecie miejsce wśród wszystkich chatbotów pod względem udziału w rynku, ustępując jedynie ChatGPT i Microsoft Copilot. Jednocześnie Gemini nadal rośnie szybciej niż jego konkurenci i stale zyskuje na popularności: zajmuje 4. miejsce pod względem napływu nowych użytkowników, a wśród znanych chatbotów tylko Claude rośnie szybciej. W tym artykule przyjrzymy się historii Gemini, obecnym modelom, ich funkcjom i ograniczeniom.
Krótka historia Google Gemini
Google jest pionierem w architekturze dużych modeli językowych i opiera się na swoich solidnych badaniach w celu opracowania własnych modeli sztucznej inteligencji.
- 2017: Badacze Google prezentują architekturę transformatorową, która stanowi podstawę wielu dzisiejszych dużych modeli językowych.
- 2020: Firma wprowadza Meenę, chatbota opartego na sieci neuronowej z 2,6 miliardami parametrów, który według Google przewyższa wszystkie inne istniejące w tym czasie chatboty.
- 2021: Meena zmienia nazwę na LaMDA (skrót od Language Model for Dialogue Applications) wraz ze wzrostem ilości danych i mocy obliczeniowej.
- 2022: Pojawia się nowy model językowy o nazwie PaLM (Pathways Language Model), z bardziej zaawansowanymi możliwościami w porównaniu do LaMDA.
- 2023: W pierwszym kwartale roku zostaje wydany chatbot o nazwie Google Bard, wspierany przez lekką i zoptymalizowaną wersję LaMDA. Następnie, w drugim kwartale, wprowadzono PaLM 2, z ulepszonym kodowaniem, możliwościami wielojęzycznymi i ulepszonymi umiejętnościami rozumowania, które Bard następnie zaadoptował. Wreszcie, w ostatnim kwartale, Google ogłosiło Gemini 1.0.
- 2024: Google zmienia nazwę Bard na Gemini i aktualizuje swoje multimodalne modele sztucznej inteligencji do wersji 1.5. Modele Gemini 2.0 zostają wprowadzone w grudniu.
W kwietniu 2024 r. dyrektor generalny Google DeepMind Demis Hassabis powiedział, że z czasem firma wyda ponad 100 miliardów dolarów na rozwój technologii sztucznej inteligencji.

Demis Hassabis
Cechy wyróżniające Gemini
Każdy chatbot ma ograniczoną wiedzę na temat ostatnich wydarzeń, ponieważ jego dane treningowe obejmują tylko skończony okres czasu. Data graniczna w kontekście chatbotów odnosi się do punktu w czasie, do którego model został przeszkolony na danych i może dostarczać informacji. Na przykład, jeśli chatbot ma datę graniczną w październiku 2023 r., oznacza to, że cała wiedza i dane, do których ma dostęp, są aktualne tylko do tej daty. Wszelkie zdarzenia, wydarzenia lub zmiany, które miały miejsce po tej dacie, nie zostaną odzwierciedlone w odpowiedziach chatbota. Ograniczenie to jest ważne dla użytkowników, ponieważ wpływa na dokładność i trafność dostarczanych informacji, szczególnie w szybko zmieniających się dziedzinach, takich jak technologia, polityka czy bieżące wydarzenia. Gemini może jednak obejść to ograniczenie, uzyskując dostęp i przetwarzając informacje z wyszukiwań online za pośrednictwem wyszukiwarki Google, zapewniając bardziej aktualne odpowiedzi.
W związku z tym użytkownicy mogą potrzebować zweryfikować informacje z nowszych źródeł, jeśli szukają najnowszych aktualizacji lub spostrzeżeń. Czasami Gemini pokazuje źródła i powiązane treści w ramach i poniżej swojej odpowiedzi. Obejmują one źródła internetowe z podobnymi informacjami i linkami, które umożliwiają głębsze zapoznanie się z nimi. Gemini ma na celu generowanie oryginalnych treści, ale jeśli bezpośrednio cytuje obszernie ze strony internetowej, zobaczysz cudzysłów z cytowanym źródłem i link do tej strony. Źródła i powiązane treści mogą obejmować strony internetowe cytowane przez Gemini lub odnoszące się do części jego odpowiedzi. Jeśli odpowiedź Gemini zawiera miniaturę obrazu z sieci, pokaże źródło i poda link bezpośrednio do niego.

Gemini został zaprojektowany multimodalnie od samego początku, co oznacza, że został przeszkolony na wielu typach danych, a teraz może płynnie pracować z różnymi rodzajami treści. Jak widać na powyższym obrazku, bot może zawierać obrazy w swoich odpowiedziach. Gemini rozumie tekst, dźwięk, fragmenty wideo, odręczne notatki, wykresy, diagramy, potrafi identyfikować obiekty na zdjęciach, a ponadto może generować obrazy za pomocą Imagen 3, najbardziej zaawansowanego modelu zamiany tekstu na obraz Google.
Chatbot ma również szerokie możliwości wielojęzyczne, ponieważ jest dostępny w 46 różnych językach.
Aktualne modele, ich mocne strony i możliwości
Gemini oferuje różne modele, które są zoptymalizowane pod kątem konkretnych przypadków użycia. Oto krótki przegląd dostępnych wariantów:
Model | Wejście | Wyjście | Opis |
Gemini 2.0 Flash | Dźwięk, obrazy, wideo i tekst | Tekst, obrazy (wkrótce) i dźwięk (wkrótce) | Funkcje nowej generacji, szybkość i multimodalne generowanie dla różnorodnych zadań |
Gemini 2.0 Flash Thinking | Tekst, obrazy | Tekst | Ulepszony model rozumowania, który wyróżnia się w naukach ścisłych i matematyce |
Gemini 1.5 Flash | Dźwięk, obrazy, wideo i tekst | Tekst | Szybka i wszechstronna wydajność w różnorodnych zadaniach |
Gemini 1.5 Flash-8B | Dźwięk, obrazy, wideo i tekst | Tekst | Zadania o dużej objętości i niższej inteligencji |
Gemini 1.5 Pro | Dźwięk, obrazy, wideo i tekst | Tekst | Złożone zadania wymagające większej inteligencji |
Gemini 1.5 Flash jest wyposażony w okno kontekstowe z 1 milionem tokenów, a Gemini 1.5 Pro w okno kontekstowe z 2 milionami tokenów, które jest najdłuższe ze wszystkich dużych modeli językowych.
Jeden token odpowiada około 4 znakom w modelach Gemini. 100 tokenów to około 60-80 angielskich słów.
W praktyce 1 milion tokenów wyglądałby jak:
- 50 000 linii kodu (przy standardowych 80 znakach na linię).
- Transkrypcje ponad 200 odcinków podcastów o średniej długości.
- 8 angielskich powieści o średniej długości.
- Wszystkie wiadomości tekstowe wysłane w ciągu ostatnich 5 lat.
Gemini 1.5 Flash and Flash-8B | |
| Limit tokenów wejściowych | 1,048,576 |
| Limit tokenów wyjściowych | 8,192 |
| Maksymalna liczba obrazów | 3,600 |
| Maksymalna długość wideo | 1 godzina |
| Maksymalna długość dźwięku | Około 9,5 godziny |
Gemini 1.5 Pro osiąga niemal doskonałe przywołanie w zadaniach wyszukiwania długiego kontekstu w różnych modalnościach, odblokowując możliwość dokładnego przetwarzania długich dokumentów, tysięcy wierszy kodu, godzin audio, wideo i innych.
Gemini 1.5 Pro | |
| Limit tokenów wejściowych | 2,097,152 |
| Limit tokenów wyjściowych | 8,192 |
| Maksymalna liczba obrazów | 7,200 |
| Maksymalna długość wideo | 2 godziny |
| Maksymalna długość dźwięku | Około 19 godzin |
Każdy obraz odpowiada 258 tokenom. Obsługiwane typy obrazów:
- PNG
- WEBP
- JPEG
- HEIC
- HEIF
Chociaż nie ma konkretnych ograniczeń co do liczby pikseli w obrazie poza oknem kontekstowym modelu, większe obrazy są skalowane w dół do maksymalnej rozdzielczości 3072x3072 przy zachowaniu ich oryginalnych proporcji, podczas gdy mniejsze obrazy są skalowane do 768x768 pikseli.
Możliwości wizyjne:
- Podpisywanie i odpowiadanie na pytania dotyczące obrazów.
- Transkrypcja i wnioskowanie na podstawie plików PDF, w tym długich dokumentów o długości do 2 milionów tokenów w oknie kontekstowym.
- Opisywanie, segmentowanie i wyodrębnianie informacji z filmów, w tym zarówno klatek wizualnych, jak i audio, o długości do 90 minut.

Gemini jest w stanie poprawnie rozpoznać całą odręczną treść i zweryfikować rozumowanie.
Możliwości audio Gemini:
- Opisywać, podsumowywać lub odpowiadać na pytania dotyczące treści audio.
- Dostarczanie transkrypcji dźwięku.
- Dostarczanie odpowiedzi lub transkrypcji na temat określonego segmentu audio.
Obsługiwane formaty audio:
- WAV
- MP3
- FLAC
- OGG Vorbis
- AIFF
- AAC
Każda sekunda dźwięku odpowiada 25 tokenom; na przykład jedna minuta dźwięku jest reprezentowana jako 1500 tokenów.
Gemini 2.0 Flash | |
| Limit tokenów wejściowych | 1,048,576 |
| Limit tokenów wyjściowych | 8,192 |
Gemini 2.0 Flash to najpotężniejszy i najbardziej wszechstronny model z rodziny Gemini. Może natywnie tworzyć obrazy i generować mowę, a jeśli chodzi o wydajność, przewyższa inne modele w prawie wszystkich kluczowych testach porównawczych. Przekonaj się sam.
| Zdolność | Benchmark | Opis | Gemini 1.5 Flash | Gemini 1.5 Pro | Gemini 2.0 Flash |
| Ogólne | MMLU-Pro | Ocenia, jak dobrze modele uczenia maszynowego rozumieją język naturalny | 67.3% | 75.8% | 76.4% |
| Kod | Natural2Code | Generowanie kodu w językach Python, Java, C++, JS, Go | 79.8% | 85.4% | 92.9% |
| Kod | Bird-SQL (Dev) | Ocenia konwersję zapytań w języku naturalnym na wykonywalny SQL | 45.6% | 54.4% | 56.9% |
| Faktyczność | FACTS Grounding | Zdolność do udzielania merytorycznie poprawnych odpowiedzi na podstawie dokumentów i różnorodnych zapytań użytkowników | 82.9% | 80.0% | 83.6% |
| Matematyka | MATH | Trudne zadania matematyczne (w tym algebra, geometria, pre-calculus i inne) | 77.9% | 86.5% | 89.7% |
| Matematyka | HiddenMath | Problemy matematyczne na poziomie zawodów | 47.2% | 52.0% | 63.0% |
| Uzasadnienie | GPQA (diamond) | Wymagający zestaw pytań napisanych przez ekspertów z dziedziny biologii, fizyki i chemii | 51.0% | 59.1% | 62.1% |
| Obraz | MMMU | Wielodyscyplinarne, multimodalne rozumienie i rozumowanie na poziomie college'u | 62.3% | 65.9% | 70.7% |
| Audio | CoVoST2 (21 lang) | Automatyczne tłumaczenie mowy | 37.4 | 40.1 | 39.2 |
| Wideo | EgoSchema (test) | Analiza wideo | 66.8% | 71.2% | 71.5% |
Gemini 2.0 Flash Thinking łączy w sobie szybkość i wydajność, demonstrując niezwykłe doświadczenie w rozwiązywaniu złożonych problemów zarówno w matematyce, jak i naukach ścisłych. Okno kontekstowe z milionem tokenów umożliwia głębszą analizę długich tekstów. Ulepszone myślenie zapewnia większą spójność między myślami i odpowiedziami.
Gemini 2.0 Flash Thinking | |
| Limit tokenów wejściowych | 1,048,576 |
| Limit tokenów wyjściowych | 65,536 |
Zwróć uwagę na ogromne okno tokena wyjściowego. Pozwala to modelowi nie tylko przetwarzać długie żądania, ale także zwracać obszerne odpowiedzi, które mogą się przydać na przykład do generowania dużych fragmentów kodu.
Zobacz, jak Gemini 2.0 Flash Thinking przewyższa Gemini 1.5 Pro i Gemini 2.0 w matematyce, nauce i rozumowaniu multimodalnym. Może nie być tak wszechstronny jak te dwa modele, ale w tych konkretnych dziedzinach Gemini 2.0 Flash Thinking nie ma sobie równych.

Matematyka, nauki ścisłe i rozumowanie

Matematyka i nauki ścisłe
Krytyka
Chatbot Gemini miał trudny start, gdy został wydany w 2023 roku. Deweloperzy zbytnio spieszyli się z wydaniem konkurenta dla ChatGPT. I właśnie dlatego wydana wersja chatbota była pełna błędów. Użytkownicy skarżyli się na dużą liczbę błędów merytorycznych i nieścisłości w odpowiedziach bota.
Jedną z najgłośniejszych była kontrowersja związana z generowaniem obrazów. Gemini próbował zaprezentować maksymalną różnorodność rasową nawet tam, gdzie było to niewłaściwe. Według chatbota, tak wyglądali niemieccy żołnierze w 1943 roku:

A tak wyglądali amerykańscy senatorowie w XIX wieku:

Z powodu niezadowolenia użytkowników akcje firmy spadły o 4,5%, co w przybliżeniu odpowiada stracie w wysokości 90 milionów dolarów. Deweloperzy musieli również tymczasowo zablokować możliwość generowania obrazów ludzi.
Po kontrowersjach związanych z generowaniem obrazów, niektórzy użytkownicy zaczęli oskarżać odpowiedzi tekstowe Gemini o stronniczość w kierunku lewicy. W jednym z takich przykładów Gemini stwierdziło, że „trudno jest definitywnie stwierdzić”, czy Elon Musk lub nazistowski dyktator Adolf Hitler mieli większy negatywny wpływ na społeczeństwo. Ponadto inni użytkownicy zauważyli, że Gemini wydaje się faworyzować lewicowych polityków i kwestie takie jak akcja afirmatywna i prawa do aborcji, jednocześnie niechętnie wspierając prawicowe postacie, konsumpcję mięsa i paliwa kopalne.
Trzeba jednak powiedzieć, że wszystkie te trudności są już w większości za nami. Teraz Gemini nie ma żadnych problemów i jest jednym z najbardziej udanych i popularnych chatbotów na świecie.