Tornar al principal

GPT-3.5, GPT-4: aprèn la diferència

ChatGPT és una aplicació de chatbot desenvolupada per OpenAI. Les diferents versions de GPT (com ara GPT-3.5 i GPT-4) són els "cervells" del chatbot, la intel·ligència artificial que permet que ChatGPT reconegui, entengui i generi text d'una manera semblant a l'ésser humà.

GPT-3.5

GPT-3.5 és una subclasse de la 3a iteració de Generative Pre-Trained Transformer. Es tracta d'un gran model de llenguatge basat en l'arquitectura transformadora que s'ha entrenat sobre grans quantitats de dades de text per comprendre i respondre en llengües naturals (com ara el català, l'anglès, el castellà, el francès, etc.). Això s'anomena processament del llenguatge natural. L'arquitectura del transformador és més avançada que l'arquitectura neuronal recurrent anterior. En paraules senzilles, ajuda el model lingüístic a comprendre i comprendre millor el text.

Els transformadors són capaços d'entendre millor el context, percebre les connexions entre les paraules d'una frase i un paràgraf, i emfatitzar les idees clau dins d'un text.

GPT-3.5 té 175 mil milions de paràmetres d'aprenentatge. Aleshores, aquest era el màxim per qualsevol altre gran model lingüístic. Aquests paràmetres són com connexions neuronals, com més, millor. El més sorprenent és que en algun moment, quan augmenta el nombre de paràmetres, el model esdevé un expert fins i tot en àmbits en els quals ningú l'ha format especialment: traduir d'una llengua a una altra, resoldre problemes lògics i matemàtics, per exemple.

Per fer que la interacció amb GPT-3.5 sigui més natural i segura, es va aplicar una tècnica anomenada aprenentatge de reforç a partir de la retroalimentació humana, on s'utilitza l'entrada humana per millorar els algorismes d'aprenentatge automàtic.

ChatGPT-4 i com és diferent de ChatGPT-3.5

GPT-4 té 100 bilions de paràmetres!

El nou model és moltes vegades més avançat. Una diferència important que us crida immediatament l'atenció és que el GPT-4 ha après a reconèixer les imatges. Això és el que pot fer:

  • descriu el que hi ha a la imatge,
  • explicar acudits visuals,
  • crea un títol per a una foto,
  • suggerir una recepta basada en el menjar de la imatge,
  • comprendre gràfics, gràfics i textos escrits a mà.

Per exemple, basant-se en una plantilla dibuixada a mà, GPT-4 pot escriure el codi de la pàgina web que voleu crear.

GPT-4 també funciona millor que el seu predecessor en el processament d'informació textual: memoritza grans quantitats de text per a una millor comprensió contextual i dóna respostes un 40% més precises. GPT-4 pot processar l'equivalent a 300 pàgines de text (128 000 tokens) en un sol missatge, mentre que GPT-3.5 només podria processar 14 pàgines (16 000 tokens).

GPT-4 és tan intel·ligent que va aprovar l'examen d'advocacia i es va situar entre el 10% superior (GPT-3.5 va acabar per darrere dels humans en un 17%). En moltes proves, el model supera fins i tot els humans. Concretament, a les proves de matemàtiques, física i química, GPT-4 va superar el 88% dels participants.

 GPT-3.5GPT-4
Data de llançament inicial15 de març de 202214 de març de 2023
Coneixement dels esdeveniments mundialsFins al setembre de 2021Fins a l'abril de 2023
Paràmetres175 mil milions100 bilions
EntradaNomés textText i imatges
Finestra de context16 000 tokens*128 000 tokens*
Respostes fetesErrors puntuals40% més precís

*1000 tokens són unes 750 paraules

GPT-4 supera GPT-3.5 en moltes àrees diferents: des de la composició de cançons i l'escriptura de guions fins a la redacció tècnica i les traduccions d'idiomes.

Crítica GPT-4

GPT-4 no és perfecte de cap manera. Ens sembla que les xarxes neuronals només milloren cada dia, però un estudi de Stanford el juny de 2023 va demostrar que els resultats de GPT-4 s'han deteriorat des del març.

Prova GPT-4 i GPT-3.5 al març i al juny de 2023

Prova GPT-4 i GPT-3.5 al març i al juny de 2023

El model va mostrar una degradació significativa del rendiment en la resolució de problemes matemàtics i la generació de codi:

  • per exemple, va tenir dificultats per determinar si el nombre 17077 era primer,
  • i només el 10% del temps va poder escriure codi de treball en tasques classificades com a fàcils per LeetCode.

Al mateix temps, GPT-4 va mostrar millores en el raonament visual i la resposta a preguntes sensibles (on la resposta podria causar danys o infringir la llei).

Els crítics d'aquest estudi van assenyalar possibles errors en la metodologia i van assenyalar que la dinàmica resultant s'hauria de veure com un canvi de comportament més que com un deteriorament.