GPT-3.5, GPT-4: Lernen Sie den Unterschied
ChatGPT ist eine von OpenAI entwickelte Chatbot-Anwendung. Verschiedene Versionen von GPT (wie GPT-3.5 und GPT-4) sind die "Gehirne" des Chatbots, die künstliche Intelligenz, die es ChatGPT ermöglicht, Text auf menschenähnliche Weise zu erkennen, zu verstehen und zu erzeugen.
GPT-3.5
GPT-3.5 ist eine Unterklasse der 3. Iteration des Generative Pre-Trained Transformer. Es handelt sich um ein umfangreiches Sprachmodell, das auf einer Transformer-Architektur basiert und auf großen Mengen von Textdaten trainiert wurde, um natürliche Sprachen (wie Deutsch, Englisch, Spanisch, Französisch usw.) zu verstehen und zu beantworten. Das nennt man natürliche Sprachverarbeitung. Die Transformer-Architektur ist fortschrittlicher als frühere rekurrente neuronale Architekturen. Mit einfachen Worten: Sie hilft dem Sprachmodell, den Text besser zu verstehen und zu begreifen.
Trasformer sind in der Lage, Zusammenhänge besser zu verstehen, die Verbindungen zwischen den Wörtern eines Satzes oder Absatzes zu erkennen und die wichtigsten Gedanken in einem Text hervorzuheben.
GPT-3.5 hat 175 Milliarden Lernparameter. Zum damaligen Zeitpunkt war dies die größte Anzahl aller anderen großen Sprachmodelle. Diese Parameter sind wie neuronale Verbindungen, je mehr, desto besser. Das Erstaunlichste ist, dass das Modell irgendwann, wenn die Zahl der Parameter steigt, selbst in Bereichen, für die es niemand speziell trainiert hat, zu einem Experten wird: zum Beispiel beim Übersetzen von einer Sprache in eine andere oder beim Lösen logischer und mathematischer Probleme.
Um die Interaktion mit dem GPT-3.5 natürlicher und sicherer zu machen, wurde eine Technik namens "Reinforcement Learning from Human Feedback" angewandt, bei der menschliche Eingaben zur Verbesserung von Algorithmen des maschinellen Lernens verwendet werden.
ChatGPT-4 und der Unterschied zu ChatGPT-3.5
GPT-4 hat 100 Billionen Parameter!

Das neue Modell ist um ein Vielfaches fortschrittlicher. Ein wichtiger Unterschied, der sofort ins Auge sticht, ist, dass der GPT-4 gelernt hat, Bilder zu erkennen. Das kann es:
- beschreiben, was auf dem Bild zu sehen ist,
- visuelle Witze erklären,
- sich eine Bildunterschrift für ein Foto ausdenken,
- ein Rezept vorschlagen, das auf dem Essen auf dem Bild basiert,
- Schaubilder, Diagramme und handgeschriebenen Text verstehen.
Zum Beispiel kann GPT-4 auf der Grundlage einer handgezeichneten Vorlage den Code für die zu erstellende Webseite schreiben.
Auch bei der Verarbeitung von Textinformationen schneidet GPT-4 besser ab als sein Vorgänger: Es speichert große Textmengen für ein besseres kontextuelles Verständnis und gibt 40 % genauere Antworten. GPT-4 kann das Äquivalent von 300 Textseiten (128 000 Token) in einer einzigen Frage verarbeiten, während GPT-3.5 nur 14 Seiten (16 000 Token) verarbeiten konnte.
GPT-4 ist so intelligent, dass es die Anwaltsprüfung bestand und zu den besten 10 % gehörte (GPT-3.5 lag am Ende etwa 17 % hinter den Menschen). In vielen Tests übertrifft das Modell sogar den Menschen. Insbesondere in Mathe-, Physik- und Chemietests übertraf GPT-4 88 % der Testteilnehmer.
| GPT-3.5 | GPT-4 | |
| Datum der Erstveröffentlichung | 15. März 2022 | 14. März 2023 |
| Kenntnis des Weltgeschehens | Bis September 2021 | Bis zum April 2023 |
| Parameter | 175 Milliarden | 100 Billionen |
| Eingabe | Nur Text | Text und Bilder |
| Kontext-Fenster | 16 000 Token* | 128 000 Token* |
| Tatsächliche Antworten | Gelegentliche Fehler | 40% mehr Genauigkeit |
*1000 Token sind etwa 750 Wörter
GPT-4 übertrifft GPT-3.5 in vielen verschiedenen Bereichen: vom Songwriting und Drehbuchschreiben bis hin zum technischen Schreiben und zu Sprachübersetzungen.
Kritik am GPT-4
GPT-4 ist beileibe nicht perfekt. Wir haben den Eindruck, dass neuronale Netze jeden Tag besser werden, aber eine Studie aus Stanford vom Juni 2023 zeigt, dass sich die GPT-4-Ergebnisse seit März verschlechtert haben.

Erprobung von GPT-4 und GPT-3.5 im März und Juni 2023
Das Modell zeigte erhebliche Leistungseinbußen beim Lösen mathematischer Probleme und bei der Codegenerierung:
- es hatte zum Beispiel Schwierigkeiten zu bestimmen, ob die Zahl 17077 eine Primzahl ist,
- und nur 10 % der Zeit war es in der Lage, funktionierenden Code für Aufgaben zu schreiben, die von LeetCode als leicht eingestuft wurden.
Gleichzeitig zeigte die GPT-4-Studie Verbesserungen beim visuellen Denken und bei der Beantwortung heikler Fragen (bei denen die Antwort Schaden verursachen oder gegen das Gesetz verstoßen könnte).
Kritiker dieser Studie wiesen auf mögliche methodische Fehler hin und merkten an, dass die daraus resultierende Dynamik eher als Verhaltensänderung denn als Verschlechterung angesehen werden sollte.