Tilbage til hovedsiden

GPT-3.5, GPT-4: Lær forskellen at kende

ChatGPT er en chatbot-applikation udviklet af OpenAI. Forskellige versioner af GPT (såsom GPT-3.5 og GPT-4) er chatbottens "hjerner", den kunstige intelligens, der gør det muligt for ChatGPT at genkende, forstå og generere tekst på en menneskelignende måde.

GPT-3.5

GPT-3.5 er en underklasse af den 3. iteration af Generative Pre-Trained Transformer. Det er en stor sprogmodel baseret på transformerarkitektur, der er blevet trænet på store mængder tekstdata til at forstå og svare på naturlige sprog (såsom dansk, engelsk, spansk, fransk osv.). Det kaldes naturlig sprogbehandling. Transformator-arkitekturen er mere avanceret end tidligere tilbagevendende neurale arkitekturer. Med enkle ord hjælper den sprogmodellen med bedre at forstå og opfatte teksten.

Trasformers er i stand til bedre at forstå kontekst, opfatte forbindelserne mellem ord i en sætning og et afsnit og fremhæve de vigtigste ideer i en tekst.

GPT-3.5 har 175 milliarder læringsparametre. På det tidspunkt var det det højeste antal for nogen anden stor sprogmodel. Disse parametre er som neurale forbindelser, jo flere jo bedre. Det mest overraskende er, at modellen på et tidspunkt, når antallet af parametre stiger, bliver ekspert selv på områder, som ingen har trænet den specielt til: oversættelse fra et sprog til et andet, løsning af logiske og matematiske problemer, for eksempel.

For at gøre interaktionen med GPT-3.5 mere naturlig og sikker blev der anvendt en teknik kaldet forstærkningslæring fra menneskelig feedback, hvor menneskeligt input bruges til at forbedre maskinlæringsalgoritmer.

ChatGPT-4 og hvordan det adskiller sig fra ChatGPT-3.5

GPT-4 har 100 billioner parametre!

Den nye model er mange gange mere avanceret. En vigtig forskel, som straks springer i øjnene, er, at GPT-4 har lært at genkende billeder. Her er, hvad den kan gøre:

  • beskrive, hvad der er på billedet,
  • forklare visuelle jokes,
  • finde på en billedtekst til et foto,
  • foreslå en opskrift baseret på maden på billedet,
  • forstå grafer, diagrammer og håndskrevet tekst.

Baseret på en håndtegnet skabelon kan GPT-4 f.eks. skrive koden til den webside, du ønsker at oprette.

GPT-4 er også bedre end sin forgænger til at behandle tekstinformation: den husker store mængder tekst for bedre kontekstuel forståelse og giver 40% mere præcise svar. GPT-4 kan behandle, hvad der svarer til 300 siders tekst (128.000 tokens) i en enkelt prompt, mens GPT-3.5 kun kunne behandle 14 sider (16.000 tokens).

GPT-4 er så smart, at den bestod advokateksamen med en placering blandt de bedste 10 % (GPT-3.5 endte med at være ca. 17 % dårligere end mennesker). I mange tests overgår modellen endda mennesker. Specifikt i matematik-, fysik- og kemitests klarede GPT-4 sig bedre end 88 % af testdeltagerne.

 GPT-3.5GPT-4
Første udgivelsesdato15. marts 202214. marts 2023
Viden om begivenheder i verdenFrem til september 2021Frem til april 2023
Parametre175 milliarder100 billioner
InputKun tekstTekst og billeder
Kontekst-vindue16.000 tokens*128.000 tokens*
Faktuelle svarLejlighedsvise fejl40% mere nøjagtig

*1000 tokens svarer til ca. 750 ord

GPT-4 overgår GPT-3.5 på mange forskellige områder: fra sangskrivning og manuskriptskrivning til teknisk skrivning og sprogoversættelse.

Kritik af GPT-4

GPT-4 er på ingen måde perfekt. Det ser ud til, at neurale netværk kun bliver bedre og bedre, men en undersøgelse fra Stanford i juni 2023 viste, at GPT-4-resultaterne er blevet dårligere siden marts.

Test af GPT-4 og GPT-3.5 i marts og juni 2023

Test af GPT-4 og GPT-3.5 i marts og juni 2023

Modellen viste en betydelig forringelse af ydeevnen ved løsning af matematiske problemer og kodegenerering:

  • for eksempel havde den svært ved at afgøre, om tallet 17077 var primtal,
  • og kun 10% af tiden var den i stand til at skrive fungerende kode i opgaver, der var klassificeret som lette af LeetCode.

Samtidig viste GPT-4 forbedringer i visuel ræsonnering og besvarelse af følsomme spørgsmål (hvor svaret kunne forårsage skade eller bryde loven).

Kritikere af denne undersøgelse påpegede mulige fejl i metodologien og bemærkede, at den resulterende dynamik skulle ses som adfærdsændring snarere end forringelse.