Lyginamoji geriausių kalbų modelių analizė: ChatGPT, Gemini, Claude ir Llama

Generatyvaus dirbtinio intelekto rinka auga sparčiai, pritraukdama dešimtis milijardų dolerių investicijų ir šimtus milijonų vartotojų. „ChatGPT“ išlieka populiariausiu pokalbių robotu, tačiau toli gražu ne vienintelis. Šiame straipsnyje mes apsvarstysime, kokios yra „ChatGPT“ alternatyvos.

Kokie yra populiariausi pokalbių robotai?

Kasdien atsiranda vis daugiau skirtingų pokalbių robotų, tačiau ne visi jie verti dėmesio. Yra keturi populiariausi variantai, kurie išsiskiria savo savybėmis, našumu ir kokybe:

„OpenAI“ sukurtas „ChatGPT“
„Gemini" sukurtas „Google“
„Claude" sukurtas „Anthropic“
„Llama" sukurtas „Meta“

Pažvelkime į kiekvieną iš jų atidžiau.

ChatGPT

Iki šiol populiariausias ir sėkmingiausias pokalbių robotas. Iš pradžių OpenAI išleido 2022 m. lapkritį. Iki 2023 m. sausio mėn. „ChatGPT“ tapo greičiausiai augančia vartotojų programinės įrangos programa istorijoje, pritraukusia daugiau nei 100 mln. vartotojų per du mėnesius.

Naujausias pagrindo modelis, kuris yra GPT-4o, buvo išleistas 2024 m. gegužės 13 d. Po poros mėnesių, 2024 m. liepos 18 d., OpenAI išleido mažesnę ir pigesnę versiją GPT-4o mini.

Techninės specifikacijos
Parametrų skaičius	200 mlrd. (8 mlrd. „Mini“)
Konteksto lango dydis	128 000 tokenų
Žinių pabaigos data	2023 m. spalio mėn

Parametrai yra kaip neuroniniai saitai smegenyse, kuo daugiau, tuo geriau. Tas pats pasakytina ir apie kontekstinio lango dydį, jis tarnauja kaip pokalbių roboto atmintis, padedanti sekti pokalbį. Žinių ribojimo data rodo datą, iki kurios mokymo duomenys ir informacija buvo naudojami dirbtinio intelekto modeliui sukurti. Modelis neturi žinių apie pasaulio įvykius po nustatytos datos.

Įsidėmėtinos savybės: didelis apdorojimo greitis ir efektyvumas atliekant pasikartojančias užduotis, pvz., kodavimą; išplėstinis kontekstinis supratimas, leidžiantis geriau suprasti naudotojo ketinimus ir pateikti atsakymus, labiau pritaikytus ir tinkamus konkrečiam pokalbiui.

Naudojimo atvejai:

bendravimas realiuoju laiku ir kalbos vertimas,
interaktyvus kalbų mokymasis,
klientų aptarnavimas bankininkystės ir sveikatos priežiūros srityse,
skaitmeninės rinkodaros kampanijų turinio personalizavimas.

„ChatGPT“ teikia naudingus medicininius patarimus (pvz., ką daryti, kai skauda galvą arba bėrimas), tačiau visada pabrėžia, kad svarbu pasikonsultuoti su specialistu. Labai svarbu nepamiršti, kad pokalbių robotas negali visiškai pakeisti žmogaus gydytojo.

Gemini

„Gemini“, anksčiau žinomas kaip „Bard“, buvo pristatytas 2023 m. vasario mėn. kaip „Google“ atsakas į OpenAI „ChatGPT“ atsiradimą.

„Gemini 1.5 Flash“ ir „1.5 Pro“ tapo visuotinai prieinami 2024 m. gegužės 23 d. ir nuo to laiko sulaukė daugybės atnaujinimų.

Techninės specifikacijos
Parametrų skaičius	Iki 500 mlrd
Konteksto lango dydis	1 milijonas tokenų
Žinių pabaigos data	2023 m. lapkritis

Įsidėmėtinos savybės: „1.5 Pro“ ir „1.5 Flash“ modeliuose pagal nutylėjimą konteksto langas gali būti iki 1 mln. tokenų - tai ilgiausias konteksto langas iš visų didelės apimties modelių; taip galima apdoroti ilgus dokumentus, tūkstančius kodo eilučių ir t. t.

Naudojimo atvejai:

finansinių duomenų analizė kartu su vizualinėmis rinkos tendencijomis,
sudėtingų mokslinių duomenų rinkinių interpretavimas,
daugialypės terpės rinkodaros medžiagos, kurioje derinamas tekstas ir vaizdai, kūrimas,
greitas duomenų aiškinimas ir apibendrinimas.

Dėl integracijos su „Google“ paieškos paslauga modelis gali patikrinti savo atsakymus pagal paieškos rezultatus, kad informacija visada būtų naujausia.

Claude

„Claude“ yra didelių kalbų modelių šeima, kurią sukūrė dirbtinio intelekto startuolis Anthropic, kurį 2021 m. įkūrė septyni buvę OpenAI (ChatGPT sukūrusios bendrovės) darbuotojai, įskaitant Dario Amodei, buvusį OpenAI tyrimų viceprezidentą.

Pirmasis „Claude“ modelis buvo išleistas 2021 m. kovo mėn., o naujausias „Claude 3.5 Sonnet“ – 2024 m. birželio 20 d.

Techninės specifikacijos
Parametrų skaičius	175 mlrd
Konteksto lango dydis	200 000 tokenų (maždaug 150 000 žodžių)
Žinių pabaigos data	2024 m. balandžio mėn

Įsidėmėtinos savybės: Claude'as yra išskirtinis rašytojas, gebantis kurti išties emocionalias istorijas; pokalbių robotas taip pat pasižymi tuo, kad yra kuo nekenksmingesnis ir saugesnis, jis buvo išmokytas nesirinkti toksiškų, rasistinių, seksistinių, neteisėtą, smurtinį ar neetišką elgesį skatinančių ar palaikančių atsakymų. Daugiau apie jį galite sužinoti čia.

Panaudojimo atvejai:

medicininės literatūros analizė ir parama įrodymais pagrįstų sprendimų priėmimui,
finansinių ataskaitų analizė ir rizikos vertinimas,
išmanusis mokymas, teikiant asmeninius paaiškinimus ir grįžtamąjį ryšį,
aukštos kokybės, SEO optimizuotam turiniui kurti.

Claude'ui prireikė vos 4 minučių išspręsti techniškai sudėtingą problemą, kuriai išspręsti vidutiniam programuotojui paprastai prireiktų 2-8 valandų.

Llama

Llama yra autoregresyvių didelių kalbų modelių šeima, kurią sukūrė Meta AI, Meta (Facebook savininko) padalinys. Pirmoji Llama versija buvo išleista 2023 m.

Du naujausi modeliai yra „Llama 3.1“ (išleista 2024 m. liepos 23 d.) ir „Llama 3.2“ (išleista 2024 m. rugsėjo 25 d.).

Techninės specifikacijos
Parametrų skaičius	Nuo 1 iki 405 mlrd
Konteksto lango dydis	128 000 tokenų
Žinių pabaigos data	2023 m. gruodžio mėn

Įsidėmėtinos savybės: 3.1 405B yra didžiausias atvirojo kodo dirbtinio intelekto modelis, kurio moderniausios galimybės prilygsta geriausiems uždarojo kodo modeliams.

Naudojimo atvejai:

finansinis modeliavimas ir prognozavimas,
žinių paieška ir apibendrinimas,
teksto ir kodo rašymo pagalba,
moksliniai skaičiavimai, mokslinių tyrimų projektai ir duomenų analizė.

„Llama“ yra nemokama komerciniam ir moksliniam naudojimui; ji skirta visiems ir tinka įvairiems naudojimo atvejams. Meta tiki, kad atvirai prieinamas dirbtinis intelektas yra naudingas pasauliui.

Etalonai

Massive Multitask Language Understanding (MMLU) yra vienas populiariausių ir universaliausių etalonų. MMLU apima 57 užduotis iš įvairių dalykų, įskaitant teisę, filosofiją, istorijos mediciną ir matematiką. Su 90,0% balu Gemini Ultra yra pirmasis modelis, pranokęs žmonių ekspertus MMLU srityje.

Štai „Gemini“ kūrėjų pateikti etaloniniai rezultatai:

Kitas svarbus etalonas yra kodo generavimas (HumanEval). Suteikdami didelės kalbos modeliui keletą programavimo problemų, galite įvertinti, kaip dažnai jis sukuria teisingą kodą. Claude'as tradiciškai yra geras kodų generavimo srityje. Štai „Claude“ kūrėjų pateikti etaloniniai rezultatai:

Claude 3.5 Sonnet vs GPT-4o vs Gemini 1.5 Pro vs Llama-400b

Atkreipkite dėmesį, kad beveik visose kategorijose, išskyrus matematiką (kur GPT-4o puikūs), Claude'as lenkia savo konkurentus.

Galiausiai pažvelkime į „Llama“ kūrėjų pateiktus etaloninius rezultatus:

Llama 3.1 vs GPT-4o vs Claude 3.5 Sonnet

Claude'as čia taip pat yra savo žaidimo viršūnėje, tačiau Llama neatsilieka. Pasirodo, jei norite, galite parodyti bet kokį kalbos modelį palankioje šviesoje. Juk jie visi gana artimi skaičiais.

Pagrindinės stiprybės

Remdamiesi bandymų rezultatais pamatėme, kad geriausiai kodą generuoja „Claude 3.5 Sonnet“ modelis. GPT-4o modelis šiek tiek atsilieka, tačiau jis taip pat puikiai generuoja ir aiškina kodą, randa ir taiso jame klaidas.

Be to, „Claude“ nuolat kuria vieną kokybiškiausių rašytinių turinių. Daugelis žmonių pastebi, kokia natūrali ir žmogiška yra kalba - beveik taip, tarsi ją būtų parašęs žmogus, o ne mašina. Ir „Claude“ pasižymi puikiais rezultatais įvairiose srityse - tiek rašydama kūrybinius, literatūrinius kūrinius, pavyzdžiui, trumpas istorijas, tiek praktiškesnį, utilitarinį turinį, pavyzdžiui, produktų aprašymus. Tiesą sakant, „Claude“ sukuriamas tekstas dažnai būna paruoštas publikavimui, jo beveik nereikia redaguoti.

Kita stiprioji „Claude“ pusė - tekstų korektūra. Pokalbių robotas randa ir paaiškina tiek faktines, tiek gramatines klaidas. Tai, žinoma, gali daryti ir kiti robotai, tačiau „Claude“ tai daro geriau: jis praleidžia mažiau klaidų ir išsamiau jas paaiškina.

Gemini turi plačiausią konteksto langą, todėl pokalbių robotas gali generuoti ir analizuoti ilgesnius tekstus ir ilgiau sekti pokalbį nepamiršdamas konteksto.

Dėl integracijos su „Google“ paslaugomis, įskaitant paieškos sistemą, „Gemini“ turi prieigą prie naujausios informacijos.

GPT-4o puikiai analizuoja ir supranta tekstą. Tai apima gebėjimą rasti ryšius, daryti logines išvadas, taikyti analogijas ir daryti pagrįstas išvadas.

Llama pirmauja matematikos testuose, pasižymi dideliu išvesties greičiu (Llama modeliai yra vieni greičiausiai ekrane rodančių atsakymus) ir yra vienintelis nagrinėjamas atvirojo kodo kalbos modelis.

Modelis	Stiprybės
Claude 3.5 Sonnet	Kodo generavimas, kūrybinis rašymas, korektūra
Gemini 1.5	Didžiausias konteksto langas, kalbos supratimas, Google paieška
GPT-4o	Samprotavimas, matematika, kodo ir teksto generavimas
Llama 3.1	Matematika, išvesties greitis, atviras šaltinis

Išvada

Apibendrinant, visi keturi šiame straipsnyje aptariami pokalbių robotai turi savo unikalias stipriąsias puses ir galimybes. Nors kiekvienas modelis gali būti puikus tam tikrose srityse, jie paprastai yra gana panašūs bendru našumu ir funkcionalumu.

Rekomenduojame tyrinėti ir eksperimentuoti su visais šiais modeliais, kad išsiaiškintumėte, kuris iš jų geriausiai atitinka jūsų konkrečius poreikius ir pageidavimus. Kiekvienas modelis turi savo niuansų ir gali veikti skirtingai, priklausomai nuo atliekamos užduoties.

Manome, kad pasirinkimas galiausiai priklauso nuo jūsų asmeninės patirties ir nuo to, kuris pokalbių robotas labiausiai atitinka jus ir jūsų poreikius. Išbandykite modelius patys ir nuspręskite, kuris iš jų geriausiai tinka.