Gemini: Επισκόπηση των καινοτόμων χαρακτηριστικών και μοντέλων του

Το Gemini είναι μια οικογένεια chatbots που βασίζονται στην τεχνητή νοημοσύνη και αναπτύχθηκαν από την Google. Αυτή τη στιγμή, το Gemini βρίσκεται στην τρίτη θέση μεταξύ όλων των chatbots όσον αφορά το μερίδιο αγοράς, πίσω μόνο από το ChatGPT και το Microsoft Copilot. Ταυτόχρονα, το Gemini συνεχίζει να αναπτύσσεται ταχύτερα από τους ανταγωνιστές του και κερδίζει σταθερά σε δημοτικότητα: κατατάσσεται στην 4η θέση όσον αφορά την εισροή νέων χρηστών, ενώ μόνο το Claude αναπτύσσεται ταχύτερα μεταξύ των γνωστών chatbots. Σε αυτό το άρθρο θα εξετάσουμε την ιστορία του Gemini, τα τρέχοντα μοντέλα, τα χαρακτηριστικά και τους περιορισμούς τους.

Σύντομη ιστορία του Google Gemini

Η Google υπήρξε πρωτοπόρος στην αρχιτεκτονική μεγάλων γλωσσικών μοντέλων και βασίζεται στην ισχυρή της έρευνα για την ανάπτυξη των δικών της μοντέλων τεχνητής νοημοσύνης.

2017: Οι ερευνητές της Google παρουσιάζουν την αρχιτεκτονική transformer, η οποία στηρίζει πολλά από τα σημερινά μεγάλα γλωσσικά μοντέλα.
2020: Η εταιρεία παρουσιάζει το Meena, ένα chatbot βασισμένο σε νευρωνικό δίκτυο με 2,6 δισεκατομμύρια παραμέτρους, το οποίο η Google ισχυρίζεται ότι είναι ανώτερο από όλα τα άλλα υπάρχοντα chatbot εκείνη την εποχή.
2021: Η Meena μετονομάζεται σε LaMDA (συντομογραφία των λέξεων Language Model for Dialogue Applications) καθώς αυξάνονται τα δεδομένα και η υπολογιστική της ισχύς.
2022: Κυκλοφορεί ένα νέο γλωσσικό μοντέλο με την ονομασία PaLM (Pathways Language Model), με πιο προηγμένες δυνατότητες σε σύγκριση με το LaMDA.
2023: Ένα chatbot με την ονομασία Google Bard κυκλοφορεί κατά το πρώτο τρίμηνο του έτους, υποστηριζόμενο από μια ελαφριά και βελτιστοποιημένη έκδοση του LaMDA. Στη συνέχεια, το δεύτερο τρίμηνο, παρουσιάζεται το PaLM 2, το οποίο διαθέτει βελτιωμένη κωδικοποίηση, πολύγλωσσες δυνατότητες και βελτιωμένες ικανότητες συλλογισμού, τις οποίες στη συνέχεια υιοθετεί ο Bard. Τέλος, το τελευταίο τρίμηνο, η Google ανακοίνωσε το Gemini 1.0.
2024: Η Google μετονομάζει το Bard σε Gemini και αναβαθμίζει τα πολυτροπικά μοντέλα τεχνητής νοημοσύνης στην έκδοση 1.5. Τα μοντέλα Gemini 2.0 παρουσιάζονται τον Δεκέμβριο.

Τον Απρίλιο του 2024 ο διευθύνων σύμβουλος της Google DeepMind, Demis Hassabis, δήλωσε ότι με την πάροδο του χρόνου η εταιρεία θα δαπανήσει περισσότερα από 100 δισεκατομμύρια δολάρια για την ανάπτυξη τεχνολογίας τεχνητής νοημοσύνης.

Demis Hassabis

Τα ιδιαίτερα χαρακτηριστικά των Gemini

Κάθε chatbot έχει περιορισμένη γνώση των πρόσφατων γεγονότων, επειδή τα δεδομένα εκπαίδευσής του περιλαμβάνουν μόνο μια πεπερασμένη χρονική περίοδο. Μια ημερομηνία αποκοπής στο πλαίσιο των chatbots αναφέρεται στο χρονικό σημείο μέχρι το οποίο το μοντέλο έχει εκπαιδευτεί σε δεδομένα και μπορεί να παρέχει πληροφορίες. Για παράδειγμα, εάν ένα chatbot έχει ημερομηνία αποκοπής τον Οκτώβριο του 2023, αυτό σημαίνει ότι όλες οι γνώσεις και τα δεδομένα στα οποία έχει πρόσβαση είναι επίκαιρα μόνο μέχρι εκείνη την ημερομηνία. Οποιαδήποτε γεγονότα, εξελίξεις ή αλλαγές που έχουν συμβεί μετά την ημερομηνία αυτή δεν θα αντικατοπτρίζονται στις απαντήσεις του chatbot. Αυτός ο περιορισμός είναι σημαντικό να γίνει κατανοητός από τους χρήστες, καθώς επηρεάζει την ακρίβεια και τη συνάφεια των παρεχόμενων πληροφοριών, ιδίως σε τομείς που αλλάζουν γρήγορα, όπως η τεχνολογία, η πολιτική ή τα τρέχοντα γεγονότα. Ωστόσο, το Gemini, μπορεί να παρακάμψει αυτόν τον περιορισμό, αποκτώντας πρόσβαση και επεξεργαζόμενο πληροφορίες από διαδικτυακές αναζητήσεις μέσω του Google Search, παρέχοντας πιο ενημερωμένες απαντήσεις.

Κατά συνέπεια, οι χρήστες ενδέχεται να χρειαστεί να επαληθεύσουν πληροφορίες από πιο πρόσφατες πηγές, εάν αναζητούν τις τελευταίες ενημερώσεις ή γνώσεις. Μερικές φορές, ο Gemini σας εμφανίζει πηγές και σχετικό περιεχόμενο μέσα και κάτω από την απάντησή του. Αυτές περιλαμβάνουν διαδικτυακές πηγές με παρόμοιες πληροφορίες και συνδέσμους για να εμβαθύνετε περισσότερο. Ο Gemini έχει σχεδιαστεί για να παράγει πρωτότυπο περιεχόμενο, αλλά αν παραθέσει απευθείας εκτενές απόσπασμα από μια ιστοσελίδα, θα δείτε ένα εισαγωγικό σημάδι με την αναφερόμενη πηγή και έναν σύνδεσμο προς την εν λόγω σελίδα. Οι πηγές και το σχετικό περιεχόμενο μπορεί να περιλαμβάνουν ιστότοπους που ο Gemini παρέθεσε ή που σχετίζονται με τμήματα της απάντησής του. Εάν η απάντηση του Gemini περιλαμβάνει μια μικρογραφία μιας εικόνας από τον ιστό, θα εμφανίζει την πηγή και θα παρέχει απευθείας σύνδεσμο προς αυτήν.

Το Gemini δείχνει εικόνες της Νέας Υόρκης

Το Gemini σχεδιάστηκε εξαρχής πολυτροπικά, δηλαδή εκπαιδεύτηκε σε πολλαπλούς τύπους δεδομένων, και τώρα μπορεί να λειτουργεί απρόσκοπτα με διαφορετικούς τύπους περιεχομένου. Όπως μπορείτε να δείτε στην παραπάνω εικόνα, το ρομπότ μπορεί να συμπεριλάβει εικόνες στις απαντήσεις του. Το Gemini μπορεί να κατανοήσει κείμενο, ήχο, θραύσματα βίντεο, χειρόγραφες σημειώσεις, γραφήματα, διαγράμματα, μπορεί να αναγνωρίσει αντικείμενα σε φωτογραφίες και επιπλέον μπορεί να δημιουργήσει εικόνες χρησιμοποιώντας το Imagen 3, το πιο προηγμένο μοντέλο μετατροπής κειμένου σε εικόνα της Google.

Το chatbot διαθέτει επίσης ευρείες πολύγλωσσες δυνατότητες, καθώς είναι διαθέσιμο σε 46 διαφορετικές γλώσσες.

Τρέχοντα μοντέλα, τα πλεονεκτήματα και οι δυνατότητές τους

Η Gemini προσφέρει διαφορετικά μοντέλα που είναι βελτιστοποιημένα για συγκεκριμένες περιπτώσεις χρήσης. Ακολουθεί μια σύντομη επισκόπηση των διαθέσιμων παραλλαγών:

Μοντέλο	Είσοδος	Έξοδος	Περιγραφή
Gemini 2.0 Flash	Ήχος, εικόνες, βίντεο και κείμενο	Κείμενο, εικόνες (σύντομα) και ήχος (σύντομα)	Χαρακτηριστικά επόμενης γενιάς, ταχύτητα και πολυτροπική παραγωγή για ποικίλες εργασίες
Gemini 2.0 Flash Thinking	Κείμενο, εικόνες	Κείμενο	Ενισχυμένο μοντέλο συλλογισμού που υπερέχει στις επιστήμες και τα μαθηματικά
Gemini 1.5 Flash	Ήχος, εικόνες, βίντεο και κείμενο	Κείμενο	Γρήγορες και ευέλικτες επιδόσεις σε ποικίλες εργασίες
Gemini 1.5 Flash-8B	Ήχος, εικόνες, βίντεο και κείμενο	Κείμενο	Εργασίες υψηλού όγκου και χαμηλότερης ευφυΐας
Gemini 1.5 Pro	Ήχος, εικόνες, βίντεο και κείμενο	Κείμενο	Πολύπλοκα καθήκοντα συλλογισμού που απαιτούν περισσότερη νοημοσύνη

Το Gemini 1.5 Flash διαθέτει ένα παράθυρο περιβάλλοντος 1 εκατομμυρίου Token, και το Gemini 1.5 Pro διαθέτει ένα παράθυρο περιβάλλοντος 2 εκατομμυρίων Token, το οποίο είναι το μεγαλύτερο από οποιοδήποτε άλλο μοντέλο μεγάλης γλώσσας.

Ένα token ισοδυναμεί με περίπου 4 χαρακτήρες για τα μοντέλα Gemini. 100 token αντιστοιχούν σε περίπου 60-80 αγγλικές λέξεις.

Στην πράξη, 1 εκατομμύριο tokens θα έμοιαζαν ως εξής:

50.000 γραμμές κώδικα (με τους τυπικούς 80 χαρακτήρες ανά γραμμή).
Απομαγνητοφωνήσεις πάνω από 200 επεισοδίων podcast μέσου μήκους.
8 αγγλικά μυθιστορήματα μέσου μήκους.
Όλα τα μηνύματα κειμένου που έχετε στείλει τα τελευταία 5 χρόνια.

Gemini 1.5 Flash and Flash-8B
Όριο token εισόδου	1,048,576
Όριο token εξόδου	8,192
Μέγιστος αριθμός εικόνων	3,600
Μέγιστο μήκος βίντεο	1 ώρα
Μέγιστο μήκος ήχου	Περίπου 9,5 ώρες

Το Gemini 1.5 Pro επιτυγχάνει σχεδόν τέλεια ανάκληση σε εργασίες ανάκτησης μεγάλου περιεχομένου σε όλες τις λειτουργίες, ξεκλειδώνοντας την ικανότητα να επεξεργάζεται με ακρίβεια μεγάλα έγγραφα, χιλιάδες γραμμές κώδικα, ώρες ήχου, βίντεο και πολλά άλλα.

Gemini 1.5 Pro
Όριο token εισόδου	2,097,152
Όριο token εξόδου	8,192
Μέγιστος αριθμός εικόνων	7,200
Μέγιστο μήκος βίντεο	2 ώρες
Μέγιστο μήκος ήχου	Περίπου 19 ώρες

Κάθε εικόνα ισοδυναμεί με 258 tokens. Υποστηριζόμενοι τύποι εικόνων:

PNG
WEBP
JPEG
HEIC
HEIF

Ενώ δεν υπάρχουν συγκεκριμένα όρια για τον αριθμό των εικονοστοιχείων σε μια εικόνα εκτός από το παράθυρο περιβάλλοντος του μοντέλου, οι μεγαλύτερες εικόνες κλιμακώνονται σε μέγιστη ανάλυση 3072x3072 διατηρώντας την αρχική αναλογία διαστάσεων, ενώ οι μικρότερες εικόνες κλιμακώνονται σε 768x768 εικονοστοιχεία.

Δυνατότητες όρασης:

Υπότιτλοι και απαντήσεις σε ερωτήσεις σχετικά με εικόνες.
Απομαγνητοφωνήστε και αιτιολογήστε πάνω από PDF, συμπεριλαμβανομένων μεγάλων εγγράφων έως και 2 εκατομμυρίων token στο παράθυρο πλαισίου.
Περιγράψτε, τμηματοποιήστε και εξάγετε πληροφορίες από βίντεο, συμπεριλαμβανομένων τόσο οπτικών καρέ όσο και ήχου, διάρκειας έως και 90 λεπτών.

Το Gemini είναι σε θέση να αναγνωρίσει σωστά όλο το χειρόγραφο περιεχόμενο και να επαληθεύσει το σκεπτικό.

Τις ηχητικές δυνατότητες του Gemini:

Περιγράψτε, συνοψίστε ή απαντήστε σε ερωτήσεις σχετικά με το ηχητικό περιεχόμενο.
Παρέχετε μεταγραφή του ήχου.
Παροχή απαντήσεων ή μεταγραφής σχετικά με ένα συγκεκριμένο τμήμα του ήχου.

Υποστηριζόμενες μορφές ήχου:

WAV
MP3
FLAC
OGG Vorbis
AIFF
AAC

Κάθε δευτερόλεπτο ήχου ισοδυναμεί με 25 tokens- για παράδειγμα, ένα λεπτό ήχου αναπαρίσταται ως 1.500 tokens.

Gemini 2.0 Flash
Όριο token εισόδου	1,048,576
Όριο token εξόδου	8,192

Το Gemini 2.0 Flash είναι το πιο ισχυρό και ευέλικτο μοντέλο της οικογένειας Gemini. Μπορεί να δημιουργεί εγγενώς εικόνες και να παράγει ομιλία, ενώ όσον αφορά τις επιδόσεις, ξεπερνά τα άλλα μοντέλα σε όλα σχεδόν τα βασικά σημεία αναφοράς. Δείτε και μόνοι σας.

Ικανότητα	Σημείο αναφοράς	Περιγραφή	Gemini 1.5 Flash	Gemini 1.5 Pro	Gemini 2.0 Flash
Γενικά	MMLU-Pro	Αξιολογεί πόσο καλά τα μοντέλα μηχανικής μάθησης κατανοούν τη φυσική γλώσσα	67.3%	75.8%	76.4%
Κωδικός	Natural2Code	Δημιουργία κώδικα σε Python, Java, C++, JS, Go	79.8%	85.4%	92.9%
Κωδικός	Bird-SQL (Dev)	Αξιολογεί τη μετατροπή ερωτήσεων φυσικής γλώσσας σε εκτελέσιμη SQL	45.6%	54.4%	56.9%
Πραγματικότητα	FACTS Grounding	Ικανότητα παροχής ορθών απαντήσεων με βάση την πραγματικότητα, δεδομένων των εγγράφων και των διαφορετικών αιτημάτων των χρηστών	82.9%	80.0%	83.6%
Μαθηματικά	MATH	Προκλητικά μαθηματικά προβλήματα (άλγεβρα, γεωμετρία, προ-λογισμός και άλλα)	77.9%	86.5%	89.7%
Μαθηματικά	HiddenMath	Μαθηματικά προβλήματα σε επίπεδο διαγωνισμού	47.2%	52.0%	63.0%
Συλλογισμός	GPQA (diamond)	Προκλητικό σύνολο δεδομένων με ερωτήσεις γραμμένες από ειδικούς σε θέματα βιολογίας, φυσικής και χημείας	51.0%	59.1%	62.1%
Εικόνα	MMMU	Πολυτομεακά προβλήματα πολυτροπικής κατανόησης και συλλογιστικής σε επίπεδο κολεγίου	62.3%	65.9%	70.7%
Ήχος	CoVoST2 (21 lang)	Αυτόματη μετάφραση ομιλίας	37.4	40.1	39.2
Βίντεο	EgoSchema (test)	Ανάλυση βίντεο	66.8%	71.2%	71.5%

Το Gemini 2.0 Flash Thinking συνδυάζει ταχύτητα και επιδόσεις, επιδεικνύοντας αξιοσημείωτη εμπειρία στην αντιμετώπιση πολύπλοκων προβλημάτων τόσο στα μαθηματικά όσο και στην επιστήμη. Ένα παράθυρο πλαισίου ενός εκατομμυρίου token επιτρέπει τη βαθύτερη ανάλυση κειμένου μεγάλης διάρκειας. Η βελτιωμένη σκέψη παρέχει μεγαλύτερη συνοχή μεταξύ σκέψεων και απαντήσεων.

Gemini 2.0 Flash Thinking
Όριο token εισόδου	1,048,576
Όριο token εξόδου	65,536

Σημειώστε το τεράστιο παράθυρο token εξόδου. Επιτρέπει στο μοντέλο όχι μόνο να επεξεργάζεται μακροσκελείς αιτήσεις αλλά και να επιστρέφει εκτεταμένες απαντήσεις, οι οποίες μπορεί να φανούν χρήσιμες για τη δημιουργία μεγάλων τμημάτων κώδικα, για παράδειγμα.

Δείτε πώς το Gemini 2.0 Flash Thinking ξεπερνά το Gemini 1.5 Pro και το Gemini 2.0 στα Μαθηματικά, τις Επιστήμες και την πολυτροπική συλλογιστική. Μπορεί να μην είναι τόσο ευέλικτο όσο αυτά τα δύο μοντέλα γενικά, αλλά σε αυτούς τους συγκεκριμένους τομείς, το Gemini 2.0 Flash Thinking είναι ασυναγώνιστο.

Μαθηματικά, επιστήμη και λογική

Μαθηματικά και επιστήμη

Κριτική

Το chatbot Gemini είχε ένα δύσκολο ξεκίνημα όταν κυκλοφόρησε το 2023. Οι προγραμματιστές βιάζονταν πάρα πολύ να κυκλοφορήσουν έναν αντίπαλο του ChatGPT. Και αυτός είναι ο λόγος για τον οποίο η έκδοση κυκλοφορίας του chatbot ήταν γεμάτη σφάλματα. Οι χρήστες παραπονέθηκαν για μεγάλο αριθμό πραγματολογικών λαθών και ανακριβειών στις απαντήσεις του bot.

Ένα από τα πιο προβεβλημένα ήταν η διαμάχη σχετικά με τη δημιουργία εικόνων. Το Gemini προσπάθησε να παρουσιάσει τη μέγιστη δυνατή φυλετική ποικιλομορφία, ακόμη και εκεί που ήταν ακατάλληλη. Σύμφωνα με το chatbot, έτσι έμοιαζαν οι Γερμανοί στρατιώτες το 1943:

Γερμανοί στρατιώτες το 1943 από το Gemini

Και κάπως έτσι έμοιαζαν οι γερουσιαστές των ΗΠΑ του 1800:

Αμερικανοί γερουσιαστές από τη δεκαετία του 1800 που δημιουργήθηκαν από τον Gemini

Λόγω της δυσαρέσκειας των χρηστών, οι μετοχές της εταιρείας υποχώρησαν κατά 4,5%, που αντιστοιχεί περίπου σε απώλεια 90 εκατομμυρίων δολαρίων. Οι προγραμματιστές αναγκάστηκαν επίσης να μπλοκάρουν προσωρινά τη δυνατότητα δημιουργίας εικόνων ανθρώπων.

Μετά τη διαμάχη γύρω από τη δημιουργία εικόνων, ορισμένοι χρήστες άρχισαν να κατηγορούν τις απαντήσεις κειμένου του Gemini ότι είναι προκατειλημμένες προς την αριστερά. Σε ένα τέτοιο παράδειγμα η Gemini δήλωσε ότι ήταν «δύσκολο να πει κανείς οριστικά» αν ο Elon Musk ή ο ναζιστής δικτάτορας Αδόλφος Χίτλερ είχαν μεγαλύτερο αρνητικό αντίκτυπο στην κοινωνία. Επιπλέον, άλλοι χρήστες σημείωσαν ότι ο Gemini φαινόταν να ευνοεί αριστερούς πολιτικούς και θέματα όπως η θετική δράση και τα δικαιώματα στην άμβλωση, ενώ ήταν απρόθυμος να υποστηρίξει δεξιές προσωπικότητες, την κατανάλωση κρέατος και τα ορυκτά καύσιμα.

Αλλά πρέπει να πούμε ότι όλες αυτές οι δυσκολίες είναι ως επί το πλείστον πίσω τώρα. Τώρα το Gemini δεν έχει κανένα πρόβλημα και είναι ένα από τα πιο επιτυχημένα και δημοφιλή chatbots στον κόσμο.