Was ist OpenAI o1 und inwiefern ist dieses Modell besser als GPT-4o
Am 12. September 2024 stellte OpenAI, bekannt für ChatGPT, seine neue Serie von Modellen für künstliche Intelligenz namens OpenAI o1 vor. In diesem Artikel werden wir analysieren: Wie unterscheidet sich OpenAI o1 von GPT-4o, was sind seine Stärken und in welchen Bereichen kann es eingesetzt werden?
Was ist OpenAI o1?
Es handelt sich um eine neue Familie von Chatbots, genauer gesagt um Sprachmodelle, die auf künstlicher Intelligenz basieren und zur Lösung komplexer oder besonders schwieriger Aufgaben entwickelt wurden, die Genauigkeit und logisches Denken erfordern.
Derzeit umfasst die o1-Familie:
- o1-preview – das Hauptmodell (noch in einer frühen Version, wie das Wort „preview“ angibt),
- o1-mini – ein leichteres, schnelleres Modell, das besonders effektiv beim Codieren ist.
Der Name „o1“ selbst hat eine gewisse Symbolik:
Für komplexe Denkaufgaben ist dies jedoch ein bedeutender Fortschritt und stellt eine neue Stufe der KI-Fähigkeit dar. Aus diesem Grund setzen wir den Zähler auf 1 zurück und nennen diese Serie OpenAI o1.
Unterschiede zu GPT-4o
OpenAI o1 ist eine Alternative zu GPT-4o, aber kein direkter Ersatz. Andernfalls würde das Modell einfach GPT-5 heißen.
Da es sich noch in einem relativ frühen Entwicklungsstadium befindet, kann OpenAI o1 noch nicht viele der Dinge tun, die GPT-4o kann. Beispielsweise unterstützt es nicht das Hochladen von Dateien und Bildern.
Die o1-Modelle zeichnen sich jedoch durch die Genauigkeit ihrer Antworten, die Konsistenz und die Logik ihrer Argumentation aus, wodurch sie erfolgreich in Bereichen wie
- Quantenphysik,
- Genetik,
- Medizin und
- Softwareentwicklung
eingesetzt werden können. OpenAI o1 generiert nicht einfach eine Antwort auf eine Frage, sondern baut eine Argumentationskette auf. Aus diesem Grund kann es länger dauern, bis das Modell antwortet, als bei anderen Chatbots – in der Regel 5–10 Sekunden, in manchen Fällen bis zu 20–30 Sekunden. Das ist nicht so lange, dass es wirklich störend wäre. Die sorgfältige Abwägung der Antworten macht die OpenAI-o1-Modelle im Vergleich zu ihren Konkurrenten weniger anfällig für Halluzinationen. Halluzinationen treten auf, wenn ein Chatbot Fakten aus der Luft greift und falsche Informationen liefert.
Stärken und Bewertungen von OpenAI o1
Oben haben wir bereits die Stärken von OpenAI o1 erwähnt, wie die Genauigkeit der Antworten und die geringe Anfälligkeit für Halluzinationen. Sehen wir uns nun an, wie sich dies alles in Zahlen niederschlägt: wie das o1-Modell in verschiedenen Tests abschneidet.
OpenAI o1 rangiert auf dem 89. Perzentil bei Fragen zum wettbewerbsorientierten Programmieren (Codeforces), gehört zu den 500 besten Studierenden in den USA in einer Qualifikation für die USA Math Olympiad (AIME) und übertrifft die Genauigkeit von Menschen auf Promotionsniveau bei einem Benchmark von Physik-, Biologie- und Chemieproblemen (GPQA).

Von links nach rechts: Mathematikwettbewerb, Programmierwettbewerb, naturwissenschaftliche Fragen auf Promotionsniveau
Bei den AIME-Prüfungen 2024 löste GPT-4o nur 13 % der Aufgaben richtig, während o1 83 % erreichte.
Beim GPQA-Diamant-Test, der naturwissenschaftliche Fragen auf Promotionsniveau in Physik, Biologie und Chemie umfasst, schnitten o1-Modelle sogar besser ab als menschliche Experten. Bisher war künstliche Intelligenz bei diesem Test nicht in der Lage, Menschen zu übertreffen.

Türkis: GPT-4o, Rot: o1
Das Bild oben zeigt die Exzellenz von o1 in Disziplinen, die von Mathematik bis hin zu englischer Literatur reichen. Der MMLU-Test umfasst 57 Kategorien. Das o1-Modell gewann in 54 von ihnen. Nur 7 davon passen auf das Bild:
- Globale Fakten
- College Chemie
- College Mathematik
- Berufsrecht
- Öffentlichkeitsarbeit
- Ökonometrie
- Formale Logik
Interessanterweise schneidet o1-mini beim Programmieren besser ab als o1-preview, wie die Benchmarks von Codeforces und HumanEval zeigen:

Benchmarks für Programmierkenntnisse
Zusätzlich zu den Prüfungen und akademischen Benchmarks bewertete OpenAI auch die menschliche Präferenz von o1-preview vs. GPT-4o in den folgenden Bereichen:
- Persönliches Schreiben
- Textbearbeitung
- Computerprogrammierung
- Datenanalyse
- Mathematische Berechnung
Bei dieser Bewertung wurden menschlichen Trainern anonymisierte Antworten von o1-preview und GPT-4o gezeigt, und sie sollten angeben, welche Antwort sie bevorzugten.

o1-preview-Gewinnrate vs. GPT-4o (%)
o1-preview wird in argumentationslastigen Kategorien wie Datenanalyse, Kodierung und Mathematik mit großem Abstand gegenüber GPT-4o bevorzugt. Bei einigen Aufgaben in natürlicher Sprache wie dem Schreiben und Bearbeiten von Texten wird o1-preview jedoch nicht bevorzugt, was darauf hindeutet, dass das o1-preview-Modell nicht für alle Anwendungsfälle geeignet ist.
OpenAI o1 vs. andere große Sprachmodelle
OpenAI o1-preview ist wirklich schlau. Wie schlau? Basierend auf dem norwegischen Mensa-Test hat es einen IQ von 120, was deutlich höher ist als bei anderen getesteten Sprachmodellen. Der Höchstwert in der Grafik entspricht dem durchschnittlichen menschlichen IQ. Alles links vom Höchstwert ist unterdurchschnittlich, während alles rechts davon überdurchschnittlich ist.

OpenAI o1 stellt die Konkurrenz in den Schatten, sowohl in wichtigen Benchmarks als auch in selbst entwickelten Tests.



Sie müssen diese Tests nicht einmal verstehen. Sie müssen nur sehen, dass OpenAI o1 an der Spitze steht.
Denkkette
Modelle der o1-Serie sind darauf trainiert, zu argumentieren und eine Denkkette aufzubauen. Der Chatbot gibt also nicht nur eine vorgefertigte Antwort, sondern zeigt auch den Weg auf, den er eingeschlagen hat, um dorthin zu gelangen. Es kann sehr interessant sein, diesem Weg zu folgen.
Schauen wir uns eine der schwierigeren Fragen aus dem zuvor erwähnten IQ-Test an.

Der Bot wählte Option D als Antwort aus und erklärte sie wie folgt:
Option D – Durch die Analyse der Muster im Raster sehen wir, dass jede Spalte bestimmte Komponenten kombiniert, um alle Elemente (V, umgedrehtes V, Rechteckseiten) bis zur dritten Reihe einzuschließen. In der dritten Spalte sind die Komponenten Rlinks und Rrechts (die Rechteckseiten) noch nicht erschienen. Daher ist die richtige Antwort für das leere Feld Option D, die das normale „V“ und die beiden Seiten des Rechtecks enthält und die Reihe der Komponenten für diese Spalte vervollständigt.
Schauen wir uns nun ein einfacheres Rätsel an (nicht aus dem IQ-Test):

Frage: Herr und Frau Smith und ihre beiden Kinder bilden eine typische amerikanische Familie. Laut einem ihrer gesprächigeren Nachbarn sind George und Dorothy Blutsverwandte. Howard ist älter als George. Virginia ist jünger als Howard. Virginia ist älter als Dorothy. Wenn zwei und nur zwei dieser Aussagen wahr sind, wie lautet der Vorname jedes Familienmitglieds?
Denkkette: Um dieses Rätsel zu lösen, müssen wir die Vornamen jedes Familienmitglieds auf der Grundlage der gegebenen Aussagen und der Bedingung, dass genau zwei Aussagen wahr sind, bestimmen. Lassen Sie uns die Informationen Schritt für Schritt aufschlüsseln.
Das Modell listet nun die Familienmitglieder, ihre möglichen Rollen und Namen auf; analysiert die Aussagen und findet heraus, welche davon wahr und welche falsch sind. Auf der Grundlage all dessen gibt das Modell dann die endgültige Antwort.
Antwort: Herr Smith ist George, Frau Smith ist Virginia, Sohn ist Howard, Tochter ist Dorothy.
Schlussfolgerung
Das o1-preview-Modell ist in der Lage, logisch zu denken, was für die Lösung komplexer wissenschaftlicher und mathematischer Probleme notwendig ist. Das o1-mini-Modell ist brillant im Schreiben von Code. Allerdings sind beide OpenAI-o1-Modelle eher eng spezialisierte Werkzeuge, sie sind nicht so vielseitig einsetzbar wie GPT-4o und eignen sich nicht für viele Routine- oder kreative Aufgaben: Arbeit mit Texten, literarische Übersetzung, Lektorat. In ihrem Bereich (Mathematik, Natur- und exakte Wissenschaften) sind die OpenAI-o1-Modelle jedoch unübertroffen.