En sammenlignende analyse av de beste språkmodellene: ChatGPT, Gemini, Claude og Llama

Markedet for generativ kunstig intelligens vokser i et raskt tempo, og tiltrekker seg titalls milliarder dollar i investeringer og hundrevis av millioner brukere. ChatGPT er fortsatt den mest populære chatboten, men den er langt fra den eneste. I denne artikkelen vil vi vurdere hvilke alternativer til ChatGPT som finnes.

Hva er de mest populære chatbotene?

Det er flere og flere forskjellige chatbots hver dag, men ikke alle er verdt å ta hensyn til. Det er fire mest populære alternativer som skiller seg ut på grunn av deres egenskaper, ytelse og kvalitet:

ChatGPT av OpenAI
Gemini fra Google
Claude av Anthropic
Llama av Meta

La oss se nærmere på hver av dem.

ChatGPT

Den desidert mest populære og vellykkede chatboten til dags dato. Opprinnelig utgitt av OpenAI i november 2022. I januar 2023 hadde ChatGPT blitt den raskest voksende forbrukerprogramvaren i historien, og fikk over 100 millioner brukere på bare to måneder.

Den siste grunnmodellen, som er GPT-4o, ble sluppet 13. mai 2024. Et par måneder senere, 18. juli 2024, slapp OpenAI en mindre og billigere versjon, GPT-4o mini.

Tekniske spesifikasjoner
Antall parametere	200 milliarder (8 milliarder for Mini)
Kontekstvindustørrelse	128 000 tokens
Kunnskapsskjæringsdato	Oktober 2023

Parametre er som nevrale ledd i en hjerne, jo flere jo bedre. Det samme gjelder kontekstvindustørrelsen, den fungerer som chatbotens minne, og hjelper den med å holde styr på samtalen. Kunnskapsskjæringsdatoen viser datoen frem til da treningsdataene og informasjonen ble brukt til å lage den kunstige intelligensmodellen. Modellen har ingen kjennskap til verdenshendelser etter skjæringsdatoen.

Bemerkelsesverdige egenskaper: høy prosesseringshastighet og effektivitet i repeterende oppgaver som koding; avansert kontekstuell bevissthet for bedre å forstå brukerens intensjon og gi svar som er mer skreddersydd og tilpasset den spesifikke samtalen.

Bruksområder:

sanntidskommunikasjon og språkoversettelse,
interaktiv språkopplæring,
kundeservice i bank- og helsevesenet,
personalisering av innhold for digitale markedsføringskampanjer.

ChatGPT gir nyttige medisinske råd (f.eks. om hva man skal gjøre mot hodepine eller utslett), men understreker alltid viktigheten av å konsultere en fagperson. Det er viktig å huske at chatboten ikke fullt ut kan erstatte en menneskelig lege.

Gemini

Gemini, tidligere kjent som Bard, ble introdusert i februar 2023 som Googles svar på fremveksten av OpenAIs ChatGPT.

Gemini 1.5 Flash og 1.5 Pro ble generelt tilgjengelig 23. mai 2024, og har mottatt en rekke oppdateringer siden den gang.

Tekniske spesifikasjoner
Antall parametere	Opp til 500 milliarder
Kontekstvindustørrelse	1 million tokens
Kunnskapsskjæringsdato	November 2023

Bemerkelsesverdige egenskaper: modellene 1.5 Pro og 1.5 Flash har begge et standard kontekstvindu på opptil 1 million tokens, som er det lengste kontekstvinduet i noen storskalamodell; dette åpner for muligheten til å behandle lange dokumenter, tusenvis av kodelinjer osv.

Bruksområder:

analyse av finansielle data sammen med visuelle markedstrender,
tolke komplekse vitenskapelige datasett,
lage multimediemarkedsføringsmateriell som kombinerer tekst og bilder,
rask tolkning og oppsummering av data.

Takket være integrasjonen med Googles søketjeneste kan modellen sjekke svarene sine mot søkeresultatene, slik at informasjonen alltid er oppdatert.

Claude

Claude er en familie av store språkmodeller utviklet av Anthropic, en oppstart av kunstig intelligens, grunnlagt i 2021 av syv tidligere ansatte i OpenAI (selskapet som opprettet ChatGPT), inkludert Dario Amodi, den tidligere OpenAIs visepresident for forskning.

Den første modellen av Claude ble utgitt i mars 2021, og den siste modellen, Claude 3.5 Sonnet, ble utgitt 20. juni 2024.

Tekniske spesifikasjoner
Antall parametere	175 milliarder
Kontekstvindustørrelse	200 000 tokens (omtrent 150 000 ord)
Kunnskapsskjæringsdato	April 2024

Bemerkelsesverdige egenskaper: Claude er en eksepsjonell skribent som er i stand til å skape virkelig emosjonelle historier; chatboten er også kjent for å være så ufarlig og trygg som mulig, og den er opplært til ikke å velge svar som er giftige, rasistiske eller sexistiske, eller som oppfordrer til eller støtter ulovlig, voldelig eller uetisk atferd. Du kan lese mer om den her.

Bruksområder:

analyse av medisinsk litteratur og støtte til evidensbasert beslutningstaking,
analyse av økonomiske rapporter og risikovurdering,
intelligent veiledning, som gir personlige forklaringer og tilbakemeldinger,
generering av SEO-optimalisert innhold av høy kvalitet.

Det tok Claude bare fire minutter å løse et teknisk komplekst problem som vanligvis ville tatt en gjennomsnittlig utvikler 2-8 timer å fullføre.

Llama

Llama er en familie av autoregressive store språkmodeller utviklet av Meta AI, en avdeling av Meta (eieren av Facebook). Den første versjonen av Llama ble utgitt i 2023.

De to mest aktuelle modellene er Llama 3.1 (utgitt 23. juli 2024) og Llama 3.2 (utgitt 25. september 2024).

Tekniske spesifikasjoner
Antall parametere	Fra 1 til 405 milliarder
Kontekstvindustørrelse	128 000 tokens
Kunnskapsskjæringsdato	Desember 2023

Bemerkelsesverdige egenskaper: Llama finnes i forskjellige størrelser, derav det varierende parameterantallet; Llama 3.1 405B er den største open source-modellen for kunstig intelligens med toppmoderne funksjoner som kan konkurrere med de beste modellene med lukket kildekode.

Bruksområder:

finansiell modellering og prediksjon,
kunnskapsinnhenting og oppsummering,
hjelp til tekst- og kodeskriving,
vitenskapelig databehandling, forskningsprosjekter og dataanalyse.

Llama er gratis for kommersiell bruk og forskningsbruk; det er ment å tjene alle, og å fungere for et bredt spekter av brukstilfeller. Meta mener at det å gjøre kunstig intelligens åpent tilgjengelig er bra for verden.

Benchmarks

Massive Multitask Language Understanding (MMLU) er en av de mest populære og allsidige referansene. MMLU dekker 57 oppgaver på tvers av ulike fag, inkludert jus, filosofi, historiemedisin og matematikk. Med en score på 90,0 % er Gemini Ultra den første modellen som overgår menneskelige eksperter på MMLU.

Her er referanseresultatene levert av Gemini-utviklerne:

En annen viktig målestokk er Code Generation (HumanEval). Ved å gi en stor språkmodell flere programmeringsproblemer, kan du måle hvor ofte den produserer riktig kode. Claude er tradisjonelt god på Code Generation. Her er referanseresultatene levert av Claude-utviklerne:

Claude 3.5 Sonnet vs GPT-4o vs Gemini 1.5 Pro vs Llama-400b

Merk at i nesten alle kategorier unntatt matematikk (der GPT-4o utmerker seg), overgår Claude konkurrentene.

Til slutt, la oss se på referanseresultatene levert av Llama-utviklerne:

Llama 3.1 vs GPT-4o vs Claude 3.5 Sonnet

Claude er også på topp her, men Llama henger ikke etter. Det viser seg at hvis du vil, kan du vise hvilken som helst språkmodell i et gunstig lys. Tross alt er de alle ganske nære når det gjelder antall.

Nøkkelstyrker

Basert på testresultatene så vi at Claude 3.5 Sonnet-modellen er best til å generere kode. GPT-4o-modellen ligger litt etter, men den er også god til å generere og forklare kode, og til å finne og rette feil i den.

Dessuten produserer Claude konsekvent noe av det beste skriftlige innholdet som finnes. Mange bemerker hvor naturlig og menneskelig språket føles - det er nesten som om det var en person, og ikke en maskin, som hadde skrevet det. Og Claude utmerker seg over hele linjen, enten det dreier seg om kreative, litterære tekster som noveller eller mer praktisk, utilitaristisk innhold som produktbeskrivelser. Faktisk er tekstene Claude genererer ofte klare for publisering, og krever lite eller ingen redigering.

En annen av Claudes sterke sider er korrekturlesing av tekster. Chatboten finner og forklarer både faktafeil og grammatiske feil. Andre roboter kan selvfølgelig også gjøre dette, men Claude gjør det bedre: Den overser færre feil og forklarer dem grundigere.

Gemini har det bredeste kontekstvinduet, noe som gjør at chatboten kan generere og analysere lengre tekster, og holde oversikt over samtalen lenger uten å glemme konteksten.

Takket være integrasjonen med Googles tjenester, inkludert søkemotoren, har Gemini tilgang til den mest oppdaterte informasjonen.

GPT-4o utmerker seg når det gjelder å analysere og forstå tekst. Dette inkluderer evnen til å finne sammenhenger, trekke logiske slutninger, lage analogier og trekke gyldige konklusjoner.

Llama er best i matematiske tester, har høy utdatahastighet (Llama-modeller er blant de raskeste til å vise svar på skjermen) og er den eneste språkmodellen med åpen kildekode som er vurdert.

Modell	Styrker
Claude 3.5 Sonnet	Kodegenerering, kreativ skriving, korrekturlesing
Gemini 1.5	Største kontekstvindu, språkforståelse, Google-søk
GPT-4o	Resonnering, matematikk, generering av kode og tekst
Llama 3.1	Matematikk, utdatahastighet, åpen kildekode

Konklusjon

Avslutningsvis har de fire chatbotene som er omtalt i denne artikkelen, alle sine egne unike styrker og evner. Selv om hver modell kan utmerke seg på visse områder, er de generelt ganske like i generell ytelse og funksjonalitet.

Vi oppfordrer deg til å utforske og eksperimentere med alle disse modellene direkte for å finne ut hvilken som passer dine spesifikke behov og preferanser best. Hver modell har sine egne nyanser og kan utføre forskjellig avhengig av oppgaven.

Vi tror at valget til syvende og sist kommer ned til din personlige opplevelse og hvilken chatbot som resonerer mest med deg og dine krav. Prøv ut modellene selv, og avgjør hvilken som passer best.