Gemini: Ein Überblick über seine innovativen Funktionen und Modelle

Gemini ist eine Familie von Chatbots, die auf künstlicher Intelligenz basieren und von Google entwickelt wurden. Derzeit liegt Gemini in Bezug auf den Marktanteil auf dem dritten Platz unter allen Chatbots, nur hinter ChatGPT und Microsoft Copilot. Gleichzeitig wächst Gemini weiterhin schneller als seine Konkurrenten und erfreut sich stetig wachsender Beliebtheit: In Bezug auf den Zustrom neuer Nutzer liegt Gemini auf Platz 4, wobei nur Claude unter den bekannten Chatbots schneller wächst. In diesem Artikel werden wir uns mit der Geschichte von Gemini, den aktuellen Modellen, ihren Funktionen und Einschränkungen befassen.

Eine kurze Geschichte von Google Gemini

Google ist ein Pionier in der Architektur großer Sprachmodelle und stützt sich bei der Entwicklung eigener Modelle für künstliche Intelligenz auf seine solide Forschung.

2017: Google-Forscher stellen die Transformator-Architektur vor, die vielen der heutigen großen Sprachmodelle zugrunde liegt.
2020: Das Unternehmen stellt Meena vor, einen auf einem neuronalen Netzwerk basierenden Chatbot mit 2,6 Milliarden Parametern, der laut Google allen anderen zu diesem Zeitpunkt existierenden Chatbots überlegen sein soll.
2021: Meena wird in LaMDA (kurz für „Language Model for Dialogue Applications“) umbenannt, da seine Daten- und Rechenleistung gestiegen ist.
2022: Ein neues Sprachmodell namens PaLM (Pathways Language Model) wird veröffentlicht, das im Vergleich zu LaMDA über fortschrittlichere Funktionen verfügt.
2023: Im ersten Quartal des Jahres wird ein Chatbot namens Google Bard veröffentlicht, der auf einer leichtgewichtigen und optimierten Version von LaMDA basiert. Im zweiten Quartal wird dann PaLM 2 eingeführt, das eine verbesserte Codierung, mehrsprachige Fähigkeiten und erweiterte Argumentationsfähigkeiten bietet, die Bard dann übernimmt. Im letzten Quartal schließlich kündigte Google Gemini 1.0 an.
2024: Google benennt Bard in Gemini um und aktualisiert seine multimodalen KI-Modelle auf Version 1.5. Gemini 2.0-Modelle werden im Dezember eingeführt.

Im April 2024 gab Demis Hassabis, CEO von Google DeepMind, bekannt, dass das Unternehmen im Laufe der Zeit mehr als 100 Milliarden US-Dollar in die Entwicklung von Technologien für künstliche Intelligenz investieren wird.

Demis Hassabis

Die Besonderheiten von Gemini

Jeder Chatbot verfügt nur über begrenzte Kenntnisse über aktuelle Ereignisse, da seine Trainingsdaten nur einen begrenzten Zeitraum umfassen. Ein Stichtag im Zusammenhang mit Chatbots bezieht sich auf den Zeitpunkt, bis zu dem das Modell auf Daten trainiert wurde und Informationen bereitstellen kann. Wenn ein Chatbot beispielsweise einen Stichtag im Oktober 2023 hat, bedeutet dies, dass alle Kenntnisse und Daten, auf die er Zugriff hat, nur bis zu diesem Datum aktuell sind. Alle Ereignisse, Entwicklungen oder Änderungen, die nach diesem Datum eingetreten sind, werden in den Antworten des Chatbots nicht berücksichtigt. Diese Einschränkung ist für die Benutzer wichtig zu verstehen, da sie die Genauigkeit und Relevanz der bereitgestellten Informationen beeinträchtigt, insbesondere in sich schnell verändernden Bereichen wie Technologie, Politik oder aktuellen Ereignissen. Gemini kann diese Einschränkung jedoch umgehen, indem es auf Informationen aus Online-Suchen über die Google-Suche zugreift und diese verarbeitet, wodurch aktuellere Antworten bereitgestellt werden.

Daher müssen Benutzer möglicherweise Informationen aus neueren Quellen überprüfen, wenn sie die neuesten Updates oder Erkenntnisse suchen. Manchmal zeigt Gemini Ihnen Quellen und verwandte Inhalte innerhalb und unterhalb seiner Antwort an. Dazu gehören Webquellen mit ähnlichen Informationen und Links, über die Sie tiefer in die Materie einsteigen können. Gemini ist darauf ausgelegt, Originalinhalte zu generieren. Wenn jedoch direkt und ausführlich von einer Webseite zitiert wird, sehen Sie ein Anführungszeichen mit der zitierten Quelle und einen Link zu dieser Seite. Zu den Quellen und verwandten Inhalten können Websites gehören, die Gemini zitiert hat oder die sich auf Teile seiner Antwort beziehen. Wenn die Antwort von Gemini eine Miniaturansicht eines Bildes aus dem Internet enthält, wird die Quelle angezeigt und ein direkter Link dazu bereitgestellt.

Gemini wurde von Anfang an multimodal konzipiert, d. h. er wurde auf mehrere Datentypen trainiert und kann nun nahtlos mit verschiedenen Arten von Inhalten arbeiten. Wie Sie auf dem Bild oben sehen können, kann der Bot Bilder in seine Antworten einfügen. Gemini kann Text, Audio, Videofragmente, handschriftliche Notizen und Grafiken verstehen, Objekte auf Fotos identifizieren und darüber hinaus Bilder mit Imagen 3, Googles fortschrittlichstem Text-zu-Bild-Modell, generieren.

Der Chatbot verfügt außerdem über umfassende mehrsprachige Fähigkeiten, da er in 46 verschiedenen Sprachen verfügbar ist.

Aktuelle Modelle, ihre Stärken und Fähigkeiten

Gemini bietet verschiedene Modelle an, die für spezifische Anwendungsfälle optimiert sind. Hier ist eine kurze Übersicht über die verfügbaren Varianten:

Modell	Eingabe	Ausgabe	Beschreibung
Gemini 2.0 Flash	Audio, Bilder, Videos und Text	Text, Bilder (in Kürze) und Audio (in Kürze)	Funktionen der nächsten Generation, Geschwindigkeit und multimodale Generierung für eine Vielzahl von Aufgaben
Gemini 2.0 Flash Thinking	Text, Bilder	Text	Verbessertes Argumentationsmodell, das in den Bereichen Naturwissenschaften und Mathematik herausragend ist
Gemini 1.5 Flash	Audio, Bilder, Videos und Text	Text	Schnelle und vielseitige Leistung bei einer Vielzahl von Aufgaben
Gemini 1.5 Flash-8B	Audio, Bilder, Videos und Text	Text	Aufgaben mit hohem Volumen und geringerer Intelligenz
Gemini 1.5 Pro	Audio, Bilder, Videos und Text	Text	Komplexe Denkaufgaben, die mehr Intelligenz erfordern

Gemini 1.5 Flash wird mit einem Kontextfenster mit 1 Million Token geliefert, und Gemini 1.5 Pro wird mit einem Kontextfenster mit 2 Millionen Token geliefert, was das längste aller großen Sprachmodelle ist.

Ein Token entspricht etwa 4 Zeichen bei Gemini-Modellen. 100 Token entsprechen etwa 60–80 englischen Wörtern.

In der Praxis würde 1 Million Token wie folgt aussehen:

50.000 Codezeilen (mit den standardmäßigen 80 Zeichen pro Zeile).
Transkripte von über 200 Podcast-Episoden durchschnittlicher Länge.
8 englische Romane durchschnittlicher Länge.
Alle Textnachrichten, die Sie in den letzten 5 Jahren gesendet haben.

Gemini 1.5 Flash and Flash-8B
Eingabetoken-Limit	1,048,576
Ausgabetoken-Limit	8,192
Maximale Anzahl an Bildern	3,600
Maximale Videolänge	1 Stunde
Maximale Audiolänge	ca. 9,5 Stunden

Gemini 1.5 Pro erreicht eine nahezu perfekte Erinnerung bei Abrufaufgaben mit langem Kontext über verschiedene Modalitäten hinweg und ermöglicht so die präzise Verarbeitung langer Dokumente, Tausender Codezeilen, stundenlanger Audio- und Videodateien und mehr.

Gemini 1.5 Pro
Eingabetoken-Limit	2,097,152
Ausgabetoken-Limit	8,192
Maximale Anzahl an Bildern	7,200
Maximale Videolänge	2 Stunden
Maximale Audiolänge	Ungefähr 19 Stunden

Jedes Bild entspricht 258 Token. Unterstützte Bildtypen:

PNG
WEBP
JPEG
HEIC
HEIF

Es gibt zwar keine spezifischen Beschränkungen für die Anzahl der Pixel in einem Bild außer dem Kontextfenster des Modells, aber größere Bilder werden auf eine maximale Auflösung von 3072 x 3072 Pixel verkleinert, wobei das ursprüngliche Seitenverhältnis beibehalten wird, während kleinere Bilder auf 768 x 768 Pixel vergrößert werden.

Sehfähigkeiten:

Beschriften und beantworten Sie Fragen zu Bildern.
Transkribieren und kommentieren Sie PDFs, einschließlich langer Dokumente mit bis zu 2 Millionen Token-Kontextfenstern.
Beschreiben, segmentieren und extrahieren Sie Informationen aus Videos, einschließlich visueller Frames und Audio, mit einer Länge von bis zu 90 Minuten.

Gemini ist in der Lage, den gesamten handschriftlichen Inhalt korrekt zu erkennen und die Argumentation zu überprüfen.

Audiofunktionen von Gemini:

Beschreiben, Zusammenfassen oder Beantworten von Fragen zu Audioinhalten.
Bereitstellen einer Transkription des Audios.
Bereitstellen von Antworten oder einer Transkription zu einem bestimmten Abschnitt des Audios.

Unterstützte Audioformate:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

Jede Sekunde Ton entspricht 25 Token; eine Minute Ton entspricht beispielsweise 1.500 Token.

Gemini 2.0 Flash
Eingabetoken-Limit	1,048,576
Ausgabetoken-Limit	8,192

Gemini 2.0 Flash ist das leistungsstärkste und vielseitigste Modell der Gemini-Familie. Es kann Bilder und Sprache nativ erstellen und übertrifft andere Modelle in fast allen wichtigen Leistungsbereichen. Überzeugen Sie sich selbst.

Fähigkeit	Maßstab	Beschreibung	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
Allgemein	MMLU-Pro	Bewertet, wie gut maschinelle Lernmodelle natürliche Sprache verstehen	67.3%	75.8%	76.4%
Code	Natural2Code	Code-Generierung in Python, Java, C++, JS, Go	79.8%	85.4%	92.9%
Code	Bird-SQL (Dev)	Bewertung der Umwandlung von Fragen in natürlicher Sprache in ausführbare SQL-Anweisungen	45.6%	54.4%	56.9%
Faktizität	FACTS Grounding	Fähigkeit, sachlich korrekte Antworten auf Dokumente und verschiedene Benutzeranfragen zu geben	82.9%	80.0%	83.6%
Mathe	MATH	Schwierige Mathematikaufgaben (einschließlich Algebra, Geometrie, Vorberechnung und andere)	77.9%	86.5%	89.7%
Mathe	HiddenMath	Mathematikaufgaben auf Wettbewerbsniveau	47.2%	52.0%	63.0%
Argumentation	GPQA (diamond)	Anspruchsvoller Fragenkatalog, der von Fachleuten aus den Bereichen Biologie, Physik und Chemie erstellt wurde	51.0%	59.1%	62.1%
Bild	MMMU	Multidisziplinäre Probleme auf Hochschulniveau zum multimodalen Verstehen und logischen Denken	62.3%	65.9%	70.7%
Audio	CoVoST2 (21 lang)	Automatische Sprachübersetzung	37.4	40.1	39.2
Video	EgoSchema (test)	Videoanalyse	66.8%	71.2%	71.5%

Gemini 2.0 Flash Thinking kombiniert Geschwindigkeit und Leistung und beweist bemerkenswerte Kompetenz bei der Lösung komplexer Probleme in Mathematik und Naturwissenschaften. Ein Kontextfenster mit einer Million Token ermöglicht eine tiefere Analyse von Langtexten. Verbessertes Denken sorgt für mehr Konsistenz zwischen Gedanken und Antworten.

Gemini 2.0 Flash Thinking
Eingabetoken-Limit	1,048,576
Ausgabetoken-Limit	65,536

Bitte beachten Sie das riesige Ausgabefenster. Es ermöglicht dem Modell nicht nur, umfangreiche Anfragen zu verarbeiten, sondern auch ausführliche Antworten zu geben, was beispielsweise für die Erstellung großer Code-Blöcke nützlich sein kann.

Sehen Sie, wie Gemini 2.0 Flash Thinking Gemini 1.5 Pro und Gemini 2.0 in Mathematik, Naturwissenschaften und Multimodalem Denken übertrifft. Es ist vielleicht nicht so vielseitig wie diese beiden Modelle im Allgemeinen, aber in diesen spezifischen Bereichen ist Gemini 2.0 Flash Thinking unübertroffen.

Mathematik, Naturwissenschaften und logisches Denken

Mathematik und Naturwissenschaften

Kritik

Der Chatbot Gemini hatte einen holprigen Start, als er im Jahr 2023 veröffentlicht wurde. Die Entwickler hatten es zu sehr eilig, einen Rivalen für ChatGPT auf den Markt zu bringen. Und deshalb war die veröffentlichte Version des Chatbots voller Fehler. Die Benutzer beschwerten sich über eine große Anzahl von sachlichen Fehlern und Ungenauigkeiten in den Antworten des Bots.

Einer der bekanntesten Vorfälle war die Kontroverse um die Bilderzeugung. Gemini versuchte, maximale ethnische Vielfalt zu präsentieren, auch wenn dies unangemessen war. Dem Chatbot zufolge sahen deutsche Soldaten im Jahr 1943 so aus:

Deutsche Soldaten im Jahr 1943, erstellt von Gemini

Und so sahen US-Senatoren im 19. Jahrhundert aus:

US-Senatoren aus dem 19. Jahrhundert, erstellt von Gemini

Aufgrund der Unzufriedenheit der Nutzer fielen die Aktien des Unternehmens um 4,5 %, was in etwa einem Verlust von 90 Millionen US-Dollar entspricht. Die Entwickler mussten außerdem vorübergehend die Möglichkeit blockieren, Bilder von Personen zu generieren.

Nach der Kontroverse um die Bilderzeugung beschuldigten einige Benutzer die Textantworten von Gemini, linkslastig zu sein. In einem solchen Beispiel erklärte Gemini, dass es „schwierig ist, definitiv zu sagen“, ob Elon Musk oder der Nazi-Diktator Adolf Hitler einen größeren negativen Einfluss auf die Gesellschaft hatten. Darüber hinaus stellten andere Nutzer fest, dass Gemini anscheinend linksgerichtete Politiker und Themen wie Affirmative Action und Abtreibungsrechte befürwortet, während er sich weigert, rechtsgerichtete Persönlichkeiten, Fleischkonsum und fossile Brennstoffe zu unterstützen.

Aber es muss gesagt werden, dass all diese Schwierigkeiten inzwischen größtenteils überwunden sind. Jetzt hat Gemini keine Probleme mehr und ist einer der erfolgreichsten und beliebtesten Chatbots der Welt.