Cos'è OpenAI o1 e come questo modello è migliore di GPT-4o
Il 12 settembre 2024 OpenAI, nota per ChatGPT, ha presentato la sua nuova serie di modelli di intelligenza artificiale chiamata OpenAI o1. In questo articolo analizzeremo: come OpenAI o1 si differenzia da GPT-4o, quali sono i suoi punti di forza e in quali ambiti può essere utilizzato.
Che cos'è OpenAI o1?
È una nuova famiglia di chatbot o, più precisamente, di modelli linguistici basati sull'intelligenza artificiale, progettati per risolvere compiti complessi o particolarmente difficili che richiedono precisione e pensiero logico.
Attualmente, la famiglia o1 comprende:
- o1-preview - il modello principale (ancora in versione iniziale, come indica la parola “preview”),
- o1-mini - un modello più leggero e veloce, particolarmente efficace per la codifica.
Il nome stesso “o1” contiene un certo simbolismo:
Ma per i compiti di ragionamento complessi questo è un progresso significativo e rappresenta un nuovo livello di capacità dell'intelligenza artificiale. Per questo motivo, ripristiniamo il contatore a 1 e diamo a questa serie il nome di OpenAI o1.
Differenze rispetto a GPT-4o
OpenAI o1 è un'alternativa alla GPT-4o, ma non una sostituzione diretta. Altrimenti, il modello si chiamerebbe semplicemente GPT-5.
Essendo in una fase relativamente iniziale di sviluppo, OpenAI o1 non può ancora fare molte delle cose che GPT-4o può fare. Ad esempio, non supporta il caricamento di file e immagini.
Tuttavia, i modelli di o1 eccellono per l'accuratezza delle loro risposte, la coerenza e la logica dei loro ragionamenti, il che consente loro di essere applicati con successo in aree quali:
- Fisica quantistica,
- Genetica,
- Medicina,
- Sviluppo di software.
OpenAI o1 non genera semplicemente una risposta a una domanda, ma costruisce una catena di ragionamenti. Per questo motivo, il modello può impiegare più tempo per rispondere rispetto ad altri chatbot: in genere 5-10 secondi, e in alcuni casi fino a 20-30 secondi. Non si tratta di un tempo così lungo da diventare un vero e proprio inconveniente. L'attenta considerazione delle risposte rende i modelli OpenAI o1 meno inclini alle allucinazioni rispetto ai loro concorrenti. Le allucinazioni si verificano quando un chatbot inventa fatti dal nulla, fornendo informazioni false.
Punti di forza e valutazioni di OpenAI o1
Sopra abbiamo già menzionato i punti di forza di OpenAI o1, come l'accuratezza delle risposte e la debole suscettibilità alle allucinazioni. Vediamo ora come tutto questo si traduce in numeri: quali sono i punteggi ottenuti dal modello o1 nei vari test.
OpenAI o1 si posiziona all'89° percentile nei test di programmazione competitivi (Codeforces), si colloca tra i primi 500 studenti degli Stati Uniti in una gara di qualificazione per le Olimpiadi della Matematica USA (AIME) e supera l'accuratezza umana a livello di dottorato in un benchmark di problemi di fisica, biologia e chimica (GPQA).

Da sinistra a destra: Matematica del concorso, Codice del concorso, Domande di dottorato in scienze
Negli esami AIME 2024, GPT-4o ha risolto correttamente solo il 13% dei problemi, mentre o1 ha ottenuto l'83%.
Nel test GPQA Diamond, che comprende quesiti scientifici di livello dottorale in fisica, biologia e chimica, i modelli o1 hanno fatto addirittura meglio degli esperti umani. In precedenza, l'intelligenza artificiale non era stata in grado di superare gli esseri umani in questo test.

Turchese: GPT-4o, Rosso: o1
L'immagine qui sopra mostra l'eccellenza di o1 in discipline che vanno dalla matematica alla letteratura inglese. Il test MMLU comprende 57 categorie. Il modello o1 ha vinto in 54 di esse. Solo 7 di esse rientrano nell'immagine:
- Fatti globali
- Chimica universitaria
- Matematica universitaria
- Diritto professionale
- Relazioni pubbliche
- Econometria
- Logica formale
È interessante notare che o1-mini si comporta meglio di o1-preview nella codifica, come dimostrano i benchmark di Codeforces e HumanEval:

Parametri di riferimento per la codifica
Oltre agli esami e ai benchmark accademici, OpenAI ha anche valutato la preferenza umana di o1-preview rispetto a GPT-4o:
- Scrittura personale
- Editing di testi
- Programmazione informatica
- Analisi dei dati
- Calcolo matematico
In questa valutazione, ai formatori umani sono state mostrate le risposte anonime di o1-preview e GPT-4o e hanno votato la risposta che preferivano.

Tasso di vincita di o1-preview vs GPT-4o (%)
o1-preview è preferito a GPT-4o con un ampio margine nelle categorie di ragionamento più pesanti, come l'analisi dei dati, la codifica e la matematica. Tuttavia, o1-preview non è preferito in alcuni compiti di linguaggio naturale, come la scrittura e la modifica di testi, suggerendo che il modello o1-preview non è adatto a tutti i casi d'uso.
OpenAI o1 rispetto ad altri modelli linguistici di grandi dimensioni
OpenAI o1-preview è davvero intelligente. Quanto intelligente? In base al test del Mensa norvegese, ha un QI di 120, che è significativamente più alto di quello di altri modelli linguistici testati. Il picco sul grafico rappresenta il QI umano medio. Tutto ciò che si trova a sinistra del picco è inferiore alla media, mentre tutto ciò che si trova a destra è superiore alla media.

OpenAI o1 sbaraglia la concorrenza, sia nei principali benchmark che nei test casalinghi.



Non c'è nemmeno bisogno di capire questi test. Tutto ciò che serve è vedere OpenAI o1 in alto.
Catena di pensieri
I modelli della serie o1 sono addestrati a ragionare, costruendo una catena di pensieri. In questo modo, il chatbot non solo fornisce una risposta pronta, ma mostra anche il percorso seguito per arrivarci. Può essere molto interessante seguire questo percorso.
Prendiamo in esame una delle domande più difficili del test del QI citato in precedenza.

Il bot ha scelto l'opzione D come risposta ed ecco come l'ha spiegata:
Opzione D - Analizzando gli schemi della griglia, vediamo che ogni colonna combina alcuni componenti per includere tutti gli elementi (V, V rovesciata, lati del rettangolo) entro la terza riga. Nella terza colonna, i componenti Rleft e Rright (i lati del rettangolo) non sono ancora apparsi. Pertanto, la risposta corretta per la cella vuota è l'opzione D, che include la “v” normale e i due lati del rettangolo, completando l'insieme dei componenti per quella colonna.
Esaminiamo ora un rompicapo più semplice (non tratto dal test del QI):

Domanda: Il signor e la signora Smith e i loro due figli formano una tipica famiglia americana. Secondo uno dei loro vicini più loquaci: George e Dorothy sono consanguinei. Howard è più vecchio di George. Virginia è più giovane di Howard. Virginia è più vecchia di Dorothy. Se due e solo due di queste affermazioni sono vere, qual è il nome di battesimo di ciascun membro della famiglia?
Catena di pensiero: Per risolvere questo rompicapo, dobbiamo determinare il nome di ogni membro della famiglia in base alle affermazioni date e alla condizione che siano vere esattamente due affermazioni. Scomponiamo le informazioni passo dopo passo.
Il modello elenca i membri della famiglia, i loro possibili ruoli e nomi; analizza le affermazioni, scoprendo quali sono vere e quali false. Quindi, sulla base di tutto ciò, il modello fornisce la risposta finale.
Risposta: Il signor Smith è George, la signora Smith è Virginia, il figlio è Howard, la figlia è Dorothy.
Conclusione
Il modello o1-preview è capace di ragionamenti logici, necessari per risolvere problemi scientifici e matematici complessi. Il modello o1-mini è brillante nella scrittura del codice. Tuttavia, entrambi i modelli OpenAI o1 sono strumenti specializzati in modo piuttosto ristretto, non sono versatili nelle loro applicazioni come GPT-4o e non sono adatti a molti compiti di routine o creativi: lavorare con i testi, traduzione letteraria, editing. Tuttavia, nel loro dominio (matematica, scienze naturali ed esatte), i modelli OpenAI o1 non hanno rivali.