Τι είναι το OpenAI o1 και πώς αυτό το μοντέλο είναι καλύτερο από το GPT-4o

Στις 12 Σεπτεμβρίου 2024, η OpenAI, γνωστή για το ChatGPT, παρουσίασε τη νέα σειρά μοντέλων τεχνητής νοημοσύνης με την ονομασία OpenAI o1. Σε αυτό το άρθρο θα αναλύσουμε: πώς διαφέρει το OpenAI o1 από το GPT-4o, ποια είναι τα δυνατά του σημεία και σε ποιους τομείς μπορεί να χρησιμοποιηθεί.

Τι είναι το OpenAI o1;

Πρόκειται για μια νέα οικογένεια chatbots ή, ακριβέστερα, γλωσσικών μοντέλων που βασίζονται στην τεχνητή νοημοσύνη, σχεδιασμένων για την επίλυση σύνθετων ή ιδιαίτερα δύσκολων εργασιών που απαιτούν ακρίβεια και λογική σκέψη.

Επί του παρόντος, η οικογένεια o1 περιλαμβάνει τα εξής:

o1-preview - το κύριο μοντέλο (ακόμη σε πρώιμη έκδοση, όπως υποδηλώνει η λέξη «preview»),
o1-mini - ένα ελαφρύτερο, ταχύτερο μοντέλο που είναι ιδιαίτερα αποτελεσματικό στον προγραμματισμό.

Υπάρχει κάποιος συμβολισμός στο ίδιο το όνομα «o1»:

Όμως, για πολύπλοκες εργασίες συλλογισμού, αυτό αποτελεί σημαντική πρόοδο και αντιπροσωπεύει ένα νέο επίπεδο ικανότητας της ΤΝ. Δεδομένου αυτού, επαναφέρουμε τον μετρητή στο 1 και ονομάζουμε αυτή τη σειρά OpenAI o1.

Διαφορές από το GPT-4o

Το OpenAI o1 είναι μια εναλλακτική λύση για το GPT-4o, αλλά όχι άμεση αντικατάσταση. Διαφορετικά, το μοντέλο θα ονομαζόταν απλά GPT-5.

Όντας σε σχετικά πρώιμο στάδιο ανάπτυξης, το OpenAI o1 δεν μπορεί ακόμη να κάνει πολλά από τα πράγματα που μπορεί να κάνει το GPT-4o. Για παράδειγμα, δεν υποστηρίζει τη μεταφόρτωση αρχείων και εικόνων.

Ωστόσο, τα μοντέλα o1 υπερέχουν ως προς την ακρίβεια των απαντήσεών τους, τη συνέπεια και τη λογική των συλλογισμών τους, γεγονός που τους επιτρέπει να εφαρμόζονται με επιτυχία σε τομείς όπως:

Κβαντική φυσική,
Γενετική,
Ιατρική,
Ανάπτυξη λογισμικού.

Το OpenAI o1 δεν παράγει απλώς μια απάντηση σε μια ερώτηση, αλλά δημιουργεί μια αλυσίδα συλλογισμών. Λόγω αυτού, το μοντέλο μπορεί να χρειαστεί περισσότερο χρόνο για να απαντήσει από άλλα chatbots - συνήθως 5-10 δευτερόλεπτα, και σε ορισμένες περιπτώσεις έως και 20-30 δευτερόλεπτα. Αυτή η διάρκεια δεν είναι τόσο μεγάλη ώστε να αποτελεί πραγματική ενόχληση. Η προσεκτική εξέταση των απαντήσεων καθιστά τα μοντέλα OpenAI o1 λιγότερο επιρρεπή σε ψευδαισθήσεις σε σύγκριση με τους ανταγωνιστές τους. Οι ψευδαισθήσεις είναι όταν ένα chatbot επινοεί γεγονότα από το πουθενά, παρέχοντας ψευδείς πληροφορίες.

Δυνατά σημεία και αξιολογήσεις του OpenAI o1

Παραπάνω αναφέραμε ήδη τα δυνατά σημεία του OpenAI o1, όπως η ακρίβεια των απαντήσεων και η μικρή ευαισθησία στις ψευδαισθήσεις. Τώρα ας δούμε πώς όλα αυτά μεταφράζονται σε αριθμούς: τι βαθμολογίες σημειώνει το μοντέλο o1 σε διάφορες δοκιμές.

Το OpenAI o1 κατατάσσεται στην 89η εκατοστιαία θέση σε ανταγωνιστικές ερωτήσεις προγραμματισμού (Codeforces), κατατάσσεται μεταξύ των 500 καλύτερων μαθητών στις ΗΠΑ σε έναν προκριματικό διαγωνισμό για την Ολυμπιάδα Μαθηματικών των ΗΠΑ (AIME) και ξεπερνά την ανθρώπινη ακρίβεια επιπέδου διδακτορικού σε ένα σημείο αναφοράς προβλημάτων φυσικής, βιολογίας και χημείας (GPQA).

o1 vs GPT-4o vs εμπειρογνώμονας άνθρωπος

Από αριστερά προς τα δεξιά: Επιστημονικές ερωτήσεις διδακτορικού επιπέδου

Στις εξετάσεις AIME 2024, το GPT-4o έλυσε σωστά μόνο το 13% των προβλημάτων, ενώ το o1 σημείωσε 83%.

Στη δοκιμασία GPQA Diamond, η οποία περιλαμβάνει επιστημονικές ερωτήσεις διδακτορικού επιπέδου στη φυσική, τη βιολογία και τη χημεία, τα μοντέλα o1 τα πήγαν ακόμη καλύτερα από τους ανθρώπινους εμπειρογνώμονες. Προηγουμένως, η τεχνητή νοημοσύνη δεν είχε καταφέρει να ξεπεράσει τους ανθρώπους σε αυτό το τεστ.

Τυρκουάζ: GPT-4o, Κόκκινο: o1

Η παραπάνω εικόνα δείχνει την αριστεία του o1 σε κλάδους που κυμαίνονται από τα μαθηματικά μέχρι την αγγλική λογοτεχνία. Το τεστ MMLU περιλαμβάνει 57 κατηγορίες. Το μοντέλο o1 κέρδισε σε 54 από αυτές. Μόνο 7 από αυτές χωράνε στην εικόνα:

Παγκόσμια γεγονότα
Κολλεγιακή Χημεία
Μαθηματικά Κολεγίου
Επαγγελματικό δίκαιο
Δημόσιες Σχέσεις
Οικονομετρία
Τυπική Λογική

Είναι αρκετά ενδιαφέρον ότι το o1-mini έχει καλύτερες επιδόσεις στην κωδικοποίηση από το o1-preview, όπως δείχνουν τα benchmarks Codeforces και HumanEval:

o1-mini vs o1-preview vs GPT-4o σε σημεία αναφοράς κωδικοποίησης

Σημεία αναφοράς ικανότητας κωδικοποίησης

Εκτός από τις εξετάσεις και τα ακαδημαϊκά benchmarks, το OpenAI αξιολόγησε επίσης την ανθρώπινη προτίμηση της o1-preview έναντι της GPT-4o σε:

Προσωπικά γραπτά
Επεξεργασία κειμένου
Προγραμματισμός υπολογιστών
Ανάλυση δεδομένων
Μαθηματικοί υπολογισμοί

Σε αυτή την αξιολόγηση, οι ανθρώπινοι εκπαιδευτές έλαβαν ανώνυμες απαντήσεις από το o1-preview και το GPT-4o και ψήφισαν ποια απάντηση προτιμούσαν.

Ανθρώπινες προτιμήσεις: o1-preview vs GPT-4o

Ποσοστό νίκης o1-preview έναντι GPT-4o (%)

Το o1-preview προτιμάται από το GPT-4o με μεγάλη διαφορά σε κατηγορίες με μεγάλη βαρύτητα στη λογική, όπως η ανάλυση δεδομένων, η κωδικοποίηση και τα μαθηματικά. Ωστόσο, το o1-preview δεν προτιμάται σε ορισμένες εργασίες φυσικής γλώσσας, όπως η συγγραφή και η επεξεργασία κειμένου, γεγονός που υποδηλώνει ότι το μοντέλο o1-preview δεν είναι κατάλληλο για όλες τις περιπτώσεις χρήσης.

OpenAI o1 έναντι άλλων μεγάλων γλωσσικών μοντέλων

Το OpenAI o1-preview είναι πραγματικά έξυπνο. Πόσο έξυπνο; Με βάση το τεστ Mensa της Νορβηγίας, έχει δείκτη νοημοσύνης 120, ο οποίος είναι σημαντικά υψηλότερος από άλλα δοκιμασμένα γλωσσικά μοντέλα. Η κορυφή στο γράφημα αντιπροσωπεύει το μέσο ανθρώπινο IQ. Όλα όσα βρίσκονται αριστερά της κορυφής είναι κάτω από τον μέσο όρο, ενώ όλα όσα βρίσκονται δεξιά είναι πάνω από τον μέσο όρο.

Το OpenAI o1 ξεπερνάει τον ανταγωνισμό, τόσο σε μεγάλα benchmarks όσο και σε αυτοσχέδια τεστ.

o1-preview vs o1-mini vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3.5 Sonnet vs GPT-4o

o1-preview vs GPT-4 vs GPT-4o vs GPT-3.5

o1-preview vs o1-mini vs GPT-4o vs Gemini 1.5 Pro vs Llama 3.1 405B vs Claude 3 Opus vs GPT-4o mini

Δεν χρειάζεται καν να καταλάβετε αυτές τις δοκιμές. Το μόνο που χρειάζεται είναι να δείτε το OpenAI o1 στην κορυφή.

Αλυσίδα σκέψης

Τα μοντέλα της σειράς o1 εκπαιδεύονται να σκέφτονται, δημιουργώντας μια αλυσίδα σκέψεων. Έτσι, το chatbot όχι μόνο δίνει μια έτοιμη απάντηση, αλλά δείχνει και τη διαδρομή που ακολούθησε για να φτάσει εκεί. Μπορεί να είναι πολύ ενδιαφέρον να ακολουθήσετε αυτή τη διαδρομή.

Ας δούμε μια από τις πιο δύσκολες ερωτήσεις από το τεστ IQ που αναφέρθηκε προηγουμένως.

Το ρομπότ επέλεξε την επιλογή D ως απάντηση και να πώς το εξήγησε:

Αναλύοντας τα μοτίβα στο πλέγμα, βλέπουμε ότι κάθε στήλη συνδυάζει ορισμένα στοιχεία για να συμπεριλάβει όλα τα στοιχεία (V, ανάποδο V, πλευρές ορθογωνίου) μέχρι την τρίτη σειρά. Στην τρίτη στήλη, τα στοιχεία Rleft και Rright (οι πλευρές του ορθογωνίου) δεν έχουν ακόμη εμφανιστεί. Επομένως, η σωστή απάντηση για το κενό κελί είναι η επιλογή D, η οποία περιλαμβάνει το κανονικό «v» και τις δύο πλευρές του ορθογωνίου, συμπληρώνοντας το σύνολο των στοιχείων για τη συγκεκριμένη στήλη.

Ας δούμε τώρα έναν απλούστερο γρίφο (όχι από το τεστ IQ):

Ερώτηση: Ο κύριος και η κυρία Smith και τα δύο παιδιά τους αποτελούν μια τυπική αμερικανική οικογένεια. Σύμφωνα με έναν από τους πιο ομιλητικούς γείτονές τους: Ο George και η Dorothy είναι συγγενείς εξ αίματος. Ο Χάουαρντ είναι μεγαλύτερος από τον Τζορτζ. Η Βιρτζίνια είναι νεότερη από τον Χάουαρντ. Η Βιρτζίνια είναι μεγαλύτερη από την Ντόροθι. Αν δύο και μόνο δύο από αυτές τις δηλώσεις είναι αληθείς, ποιο είναι το μικρό όνομα κάθε μέλους της οικογένειας;

Αλυσίδα σκέψης: Για να λύσουμε αυτόν τον γρίφο, πρέπει να προσδιορίσουμε τα μικρά ονόματα κάθε μέλους της οικογένειας με βάση τις δεδομένες δηλώσεις και τη συνθήκη ότι ακριβώς δύο δηλώσεις είναι αληθείς. Ας αναλύσουμε τις πληροφορίες βήμα προς βήμα.

Τώρα το μοντέλο παραθέτει τα μέλη της οικογένειας, τους πιθανούς ρόλους και τα ονόματά τους. αναλύει τις δηλώσεις, βρίσκοντας ποιες από αυτές είναι αληθείς και ποιες ψευδείς. Στη συνέχεια, με βάση όλα αυτά το μοντέλο δίνει την τελική απάντηση.

Απάντηση: Ο κύριος Σμιθ είναι ο Τζορτζ, η κυρία Σμιθ είναι η Βιρτζίνια, ο γιος είναι ο Χάουαρντ, η κόρη είναι η Ντόροθι.

Συμπέρασμα

Το μοντέλο o1-preview είναι ικανό για λογικούς συλλογισμούς, οι οποίοι είναι απαραίτητοι για την επίλυση σύνθετων επιστημονικών και μαθηματικών προβλημάτων. Το μοντέλο o1-mini είναι εξαιρετικό στη συγγραφή κώδικα. Ωστόσο, και τα δύο μοντέλα o1 του OpenAI είναι μάλλον στενά εξειδικευμένα εργαλεία, δεν είναι τόσο ευέλικτα στις εφαρμογές τους όσο το GPT-4o και δεν είναι κατάλληλα για πολλές εργασίες ρουτίνας ή δημιουργίας: εργασία με κείμενα, λογοτεχνική μετάφραση, επιμέλεια. Ωστόσο, στον τομέα τους (μαθηματικά, φυσικές και ακριβείς επιστήμες), τα μοντέλα OpenAI o1 είναι απαράμιλλα.