GPT-3.5, GPT-4: Poznaj różnicę

ChatGPT to aplikacja chatbota opracowana przez OpenAI. Różne wersje GPT (takie jak GPT-3.5 i GPT-4) są "mózgami" chatbota, sztuczną inteligencją, która pozwala ChatGPT rozpoznawać, rozumieć i generować tekst w sposób podobny do ludzkiego.

GPT-3.5

GPT-3.5 jest podklasą trzeciej iteracji Generative Pre-Trained Transformer. Jest to duży model językowy oparty na architekturze transformatora, który został przeszkolony na ogromnych ilościach danych tekstowych, aby rozumieć i reagować w językach naturalnych (takich jak polski, angielski, hiszpański, francuski itp.). Nazywa się to przetwarzaniem języka naturalnego. Architektura transformatorowa jest bardziej zaawansowana niż poprzednia architektura neuronów rekurencyjnych. Mówiąc prościej, pomaga modelowi językowemu lepiej zrozumieć i zrozumieć tekst.

Trasformery są w stanie lepiej zrozumieć kontekst, dostrzec powiązania między słowami w zdaniu i akapicie oraz podkreślić kluczowe idee w tekście.

GPT-3.5 ma 175 miliardów parametrów uczenia. W tamtym czasie było to najwięcej spośród wszystkich dużych modeli językowych. Parametry te są jak połączenia neuronowe, im więcej tym lepiej. Najbardziej zaskakujące jest to, że w pewnym momencie, gdy liczba parametrów wzrasta, model staje się ekspertem nawet w obszarach, do których nikt go specjalnie nie szkolił: na przykład w tłumaczeniu z jednego języka na inny, rozwiązywaniu problemów logicznych i matematycznych.

Aby uczynić interakcję z GPT-3.5 bardziej naturalną i bezpieczniejszą, zastosowano technikę zwaną uczeniem wzmacniającym z ludzkich opinii, w której ludzki wkład jest wykorzystywany do ulepszania algorytmów uczenia maszynowego.

ChatGPT-4 i czym różni się od ChatGPT-3.5

GPT-4 ma 100 bilionów parametrów!

Nowy model jest wielokrotnie bardziej zaawansowany. Ważną różnicą, która natychmiast rzuca się w oczy, jest to, że GPT-4 nauczył się rozpoznawać obrazy. Oto co potrafi:

opisać, co znajduje się na obrazie,
wyjaśniać wizualne żarty,
wymyślić podpis do zdjęcia,
zasugerować przepis w oparciu o jedzenie na zdjęciu,
zrozumieć wykresy, tabele i odręczny tekst.

Na przykład, w oparciu o ręcznie narysowany szablon, GPT-4 może napisać kod dla strony internetowej, którą chcesz utworzyć.

GPT-4 radzi sobie również lepiej niż jego poprzednik z przetwarzaniem informacji tekstowych: zapamiętuje duże ilości tekstu w celu lepszego zrozumienia kontekstu i udziela o 40% dokładniejszych odpowiedzi. GPT-4 może przetworzyć ekwiwalent 300 stron tekstu (128 000 tokenów) w jednej podpowiedzi, podczas gdy GPT-3.5 mógł przetworzyć tylko 14 stron (16 000 tokenów).

GPT-4 jest tak inteligentny, że zdał egzamin adwokacki, plasując się w pierwszych 10% (GPT-3.5 znalazł się w tyle za ludźmi o około 17%). W wielu testach model ten przewyższa nawet ludzi. W szczególności, w testach z matematyki, fizyki i chemii, GPT-4 osiągnął lepsze wyniki niż 88% zdających.

	GPT-3.5	GPT-4
Początkowa data premiery	15 marca 2022 r.	14 marca 2023 r.
Znajomość wydarzeń na świecie	Do września 2021 r.	Do kwietnia 2023 r.
Parametry	175 miliardów	100 bilionów
Wejście	Tylko tekst	Tekst i obrazy
Okno kontekstowe	16 000 tokenów*	128 000 tokenów*
Odpowiedzi oparte na faktach	Sporadyczne błędy	40% większa dokładność

*1000 tokenów to około 750 słów

GPT-4 przewyższa GPT-3.5 w wielu różnych obszarach: od pisania piosenek i scenariuszy po pisanie techniczne i tłumaczenia językowe.

Krytyka GPT-4

GPT-4 w żadnym wypadku nie jest doskonały. Wydaje nam się, że sieci neuronowe z każdym dniem stają się coraz lepsze, ale badanie przeprowadzone w Stanford w czerwcu 2023 r. wykazało, że wyniki GPT-4 pogorszyły się od marca.

Testy GPT-4 i GPT-3.5 w marcu i czerwcu 2023 r.

Model wykazał znaczny spadek wydajności w rozwiązywaniu problemów matematycznych i generowaniu kodu:

na przykład miał trudności z ustaleniem, czy liczba 17077 jest pierwsza,
i tylko w 10% przypadków był w stanie napisać działający kod w zadaniach sklasyfikowanych przez LeetCode jako łatwe.

Jednocześnie GPT-4 wykazał poprawę w zakresie rozumowania wizualnego i odpowiadania na wrażliwe pytania (w których odpowiedź może spowodować szkodę lub złamać prawo).

Krytycy tego badania wskazali na możliwe błędy w metodologii i zauważyli, że wynikająca z tego dynamika powinna być postrzegana raczej jako zmiana zachowania niż pogorszenie.