GPT-3.5, GPT-4: Imparare la differenza
ChatGPT è un'applicazione chatbot sviluppata da OpenAI. Diverse versioni di GPT (come GPT-3.5 e GPT-4) sono il "cervello" del chatbot, l'intelligenza artificiale che permette a ChatGPT di riconoscere, comprendere e generare testo in modo simile a quello umano.
GPT-3.5
GPT-3.5 è una sottoclasse della terza iterazione di Generative Pre-Trained Transformer. Si tratta di un modello linguistico di grandi dimensioni basato su un'architettura a trasformatori che è stato addestrato su grandi quantità di dati testuali per comprendere e rispondere in lingue naturali (come italiano, inglese, spagnolo, francese, ecc.). Si tratta della cosiddetta elaborazione del linguaggio naturale. L'architettura transformer è più avanzata delle precedenti architetture neurali ricorrenti. In parole povere, aiuta il modello linguistico a comprendere e ad apprezzare meglio il testo.
I trasformatori sono in grado di comprendere meglio il contesto, di percepire le connessioni tra le parole di una frase e di un paragrafo e di sottolineare le idee chiave all'interno di un testo.
GPT-3.5 ha 175 miliardi di parametri di apprendimento. All'epoca si trattava della quantità maggiore di qualsiasi altro modello linguistico di grandi dimensioni. Questi parametri sono come le connessioni neurali: più sono, meglio è. La cosa più sorprendente è che a un certo punto, quando il numero di parametri aumenta, il modello diventa esperto anche in aree per le quali nessuno lo ha addestrato in modo specifico: la traduzione da una lingua all'altra, la risoluzione di problemi logici e matematici, per esempio.
Per rendere l'interazione con GPT-3.5 più naturale e sicura, è stata applicata una tecnica chiamata apprendimento rinforzato dal feedback umano, in cui l'input umano viene utilizzato per migliorare gli algoritmi di apprendimento automatico.
ChatGPT-4 e le sue differenze rispetto a ChatGPT-3.5
Il GPT-4 ha 100.000 miliardi di parametri!

Il nuovo modello è molto più avanzato. Una differenza importante che salta subito all'occhio è che il GPT-4 ha imparato a riconoscere le immagini. Ecco cosa può fare:
- descrivere cosa c'è nell'immagine,
- spiegare battute visive,
- proporre una didascalia per una foto,
- suggerire una ricetta in base al cibo presente nell'immagine,
- comprendere grafici, diagrammi e testi scritti a mano.
Ad esempio, sulla base di un modello disegnato a mano, GPT-4 può scrivere il codice della pagina web che si desidera creare.
Il GPT-4 fa meglio del suo predecessore anche nell'elaborazione delle informazioni testuali: memorizza grandi quantità di testo per una migliore comprensione del contesto e fornisce risposte più accurate del 40%. Il GPT-4 è in grado di elaborare l'equivalente di 300 pagine di testo (128 000 token) in un singolo prompt, mentre il GPT-3.5 era in grado di elaborare solo 14 pagine (16 000 token).
Il GPT-4 è così intelligente che ha superato l'esame di abilitazione, piazzandosi tra i primi 10% (il GPT-3.5 è rimasto indietro rispetto agli umani di circa il 17%). In molti test, il modello supera persino gli esseri umani. In particolare, nei test di matematica, fisica e chimica, il GPT-4 ha superato l'88% dei partecipanti al test.
| GPT-3.5 | GPT-4 | |
| Data di rilascio iniziale | 15 marzo 2022 | 14 marzo 2023 |
| Conoscenza degli eventi mondiali | Fino a settembre 2021 | Fino ad aprile 2023 |
| Parametri | 175 miliardi | 100.000 miliardi |
| Ingresso | Solo testo | Testo e immagini |
| Finestra di contesto | 16 000 token* | 128 000 token* |
| Risposte fattuali | Errori occasionali | 40% di precisione in più |
*1000 token sono circa 750 parole
Il GPT-4 supera il GPT-3.5 in molte aree diverse: dalla scrittura di canzoni e sceneggiature alla scrittura tecnica e alle traduzioni linguistiche.
Critiche al GPT-4
Il GPT-4 non è assolutamente perfetto. Ci sembra che le reti neurali migliorino di giorno in giorno, ma uno studio di Stanford del giugno 2023 ha dimostrato che i risultati del GPT-4 sono peggiorati da marzo.

Test del GPT-4 e del GPT-3.5 a marzo e giugno 2023
Il modello ha mostrato un significativo degrado delle prestazioni nella risoluzione di problemi matematici e nella generazione di codice:
- ad esempio, ha avuto difficoltà a determinare se il numero 17077 fosse primo,
- e solo il 10% delle volte è stato in grado di scrivere codice funzionante in compiti classificati come facili da LeetCode.
Allo stesso tempo, il GPT-4 ha mostrato miglioramenti nel ragionamento visivo e nel rispondere a domande delicate (in cui la risposta potrebbe causare danni o infrangere la legge).
I critici di questo studio hanno sottolineato i possibili errori metodologici e hanno osservato che le dinamiche risultanti dovrebbero essere considerate come un cambiamento del comportamento piuttosto che un peggioramento.