DeepSeek: Ένα νέο κεφάλαιο στην Τεχνητή Νοημοσύνη
Το DeepSeek είναι ένα πραγματικό φαινόμενο. Μόλις λίγες ημέρες μετά την κυκλοφορία του, το κινεζικό chatbot εκτοξεύτηκε στην κορυφή των εφαρμογών με τις περισσότερες λήψεις στο Apple App Store, εκθρονίζοντας το ChatGPT. Για πολλούς ήταν σοκαριστικό το γεγονός ότι μια σχετικά άγνωστη εταιρεία με ελάχιστες επενδύσεις -ο προϋπολογισμός της είναι περίπου 14 φορές μικρότερος από αυτόν της OpenAI- κατάφερε να ξεπεράσει, έστω και προσωρινά, τον αδιαμφισβήτητο ηγέτη της αγοράς.
Ιστορία της DeepSeek
Η DeepSeek ιδρύθηκε από τον Κινέζο δισεκατομμυριούχο Liang Wengfeng. Με σπουδές στο Πανεπιστήμιο Zhejiang, ο Liang απέκτησε πτυχίο μηχανικού στην ηλεκτρονική μηχανική πληροφοριών το 2007 και μεταπτυχιακό τίτλο μηχανικού στη μηχανική πληροφοριών και επικοινωνιών το 2010.
Το 2008, ο Liang σχημάτισε μια ομάδα με τους συμφοιτητές του στο πανεπιστήμιο για να συγκεντρώσει δεδομένα που σχετίζονται με τις χρηματοπιστωτικές αγορές και να διερευνήσει τις ποσοτικές συναλλαγές με τη χρήση μηχανικής μάθησης. Τον Φεβρουάριο του 2016, ο Liang και δύο άλλοι συμφοιτητές του μηχανικοί συνίδρυσαν την High-Flyer, μια εταιρεία που επικεντρώνεται στην αξιοποίηση της τεχνητής νοημοσύνης για αλγορίθμους συναλλαγών (πραγματοποίηση επενδύσεων, εντοπισμός μοτίβων στις τιμές των μετοχών κ.λπ.).
Τον Απρίλιο του 2023, η High-Flyer δημιούργησε ένα εργαστήριο τεχνητής γενικής νοημοσύνης αφιερωμένο στην ανάπτυξη εργαλείων τεχνητής νοημοσύνης που δεν θα χρησιμοποιούνταν για την εκτέλεση χρηματιστηριακών συναλλαγών. Τον Μάιο του 2023, αυτό το εργαστήριο έγινε ανεξάρτητη οντότητα με την ονομασία DeepSeek.
Τον Ιανουάριο του 2025, η DeepSeek έγινε πρωτοσέλιδο με την κυκλοφορία του DeepSeek-R1, ενός μοντέλου συλλογιστικής τεχνητής νοημοσύνης ανοιχτού κώδικα με 671 δισεκατομμύρια παραμέτρους. Το μοντέλο απέκτησε γρήγορα δημοτικότητα, και έγινε η νούμερο ένα δωρεάν εφαρμογή στο App Store της Apple στις ΗΠΑ.

Liang Wengfeng
Βασικά ορόσημα:
- 2016. Ίδρυση High-Flyer. Αυτή η εταιρεία που αρχικά επικεντρώθηκε σε αλγορίθμους συναλλαγών τεχνητής νοημοσύνης έθεσε τις βάσεις για την DeepSeek.
- 2023. Ίδρυση της DeepSeek. Ιδρύθηκε τον Απρίλιο ως εργαστήριο τεχνητής γενικής νοημοσύνης στο πλαίσιο της High-Flyer, η DeepSeek έγινε ανεξάρτητη τον Μάιο.
- 2025. Έκδοση του DeepSeek-R1. Έγινε γρήγορα παγκόσμια αίσθηση, κατακτώντας την κορυφή των charts ως ένα από τα πιο δημοφιλή chatbots.
Το ταξίδι του DeepSeek στην κορυφή κάθε άλλο παρά εύκολο ήταν. Στις πρώτες μέρες της, η εταιρεία βασίστηκε σε τσιπ γραφικών A100 της Nvidia, των οποίων η εξαγωγή στην Κίνα απαγορεύτηκε αργότερα από την αμερικανική κυβέρνηση. Στη συνέχεια, οι προγραμματιστές στράφηκαν στα λιγότερο ισχυρά τσιπ H800, αλλά και αυτά περιορίστηκαν σύντομα. Παρά τις προκλήσεις αυτές, η DeepSeek κατάφερε να δημιουργήσει το προηγμένο μοντέλο R1 χρησιμοποιώντας τσιπ H800 αξίας μόλις 5,6 εκατομμυρίων δολαρίων. Για να γίνει αυτό κατανοητό, η εκπαίδευση του GPT-4 εκτιμάται ότι κοστίζει μεταξύ 50-100 εκατομμυρίων δολαρίων.
«Η μεγαλύτερη πρόκλησή μας δεν ήταν ποτέ τα χρήματα, αλλά το εμπάργκο στα υψηλής ποιότητας τσιπ», δήλωσε ο Liang.

Χαρακτηριστικά του DeepSeek και βασικές τεχνολογίες
Σε αντίθεση με πολλά άλλα δημοφιλή chatbots, τα μοντέλα DeepSeek είναι ανοιχτού κώδικα, πράγμα που σημαίνει ότι οι χρήστες μπορούν να εξερευνήσουν πώς λειτουργεί η τεχνολογία κάτω από το καπό. Αυτή η διαφάνεια ενισχύει την εμπιστοσύνη, καθώς διασφαλίζει ότι το chatbot δεν είναι ένα μυστηριώδες «μαύρο κουτί» - η συμπεριφορά του μπορεί να εξεταστεί και να γίνει κατανοητή από την κοινότητα.
Τα στοιχεία ανοικτού κώδικα επιτρέπουν στους προγραμματιστές και τους ερευνητές να συνεισφέρουν βελτιώσεις, να διορθώνουν σφάλματα ή να προσαρμόζουν την τεχνολογία για συγκεκριμένες ανάγκες. Αυτός είναι ο λόγος για τον οποίο τα έργα ανοικτού κώδικα τείνουν να εξελίσσονται γρήγορα λόγω των συνεισφορών της κοινότητας. Θα δείτε νέα χαρακτηριστικά, βελτιώσεις και εφαρμογές να εμφανίζονται ταχύτερα απ' ό,τι με τα ιδιόκτητα συστήματα.
Ορισμένες από τις σημαντικές τεχνικές λύσεις που κάνουν τα μοντέλα DeepSeek να λειτουργούν όσο το δυνατόν πιο αποτελεσματικά:
- MoE (Mixture of Experts)
- MLA (Multi-head Latent Attention)
- MTP (Multi-Token Prediction)

Η μίξη εμπειρογνωμόνων (MoE) είναι μια τεχνική μηχανικής μάθησης που περιλαμβάνει το συνδυασμό των προβλέψεων πολλαπλών εξειδικευμένων μοντέλων (των «εμπειρογνωμόνων») για τη βελτίωση της συνολικής απόδοσης του chatbot.
Ακολουθεί ο τρόπος με τον οποίο λειτουργεί στο DeepSeek:
- Το DeepSeek πιθανότατα διαθέτει μια μεγάλη δεξαμενή 256 εξειδικευμένων νευρωνικών δικτύων (εμπειρογνωμόνων). Κάθε ειδικός είναι ένα μικρότερο μοντέλο που έχει εκπαιδευτεί για να χειρίζεται συγκεκριμένα μοτίβα ή χαρακτηριστικά στα δεδομένα. Για παράδειγμα, στην επεξεργασία φυσικής γλώσσας, ένας εμπειρογνώμονας μπορεί να ειδικεύεται στο συντακτικό, ένας άλλος στη σημασιολογία, ένας άλλος στη γνώση συγκεκριμένου τομέα κ.λπ.
- Ένα δίκτυο πύλης αποφασίζει ποιοι εμπειρογνώμονες θα ενεργοποιηθούν για κάθε token εισόδου. Αξιολογεί την είσοδο και αποδίδει βάρη στους εμπειρογνώμονες, επιλέγοντας τους 8 κορυφαίους εμπειρογνώμονες που είναι πιο σχετικοί με το τρέχον token. Με τον τρόπο αυτό διασφαλίζεται ότι χρησιμοποιείται μόνο ένα μικρό υποσύνολο του συνόλου των εμπειρογνωμόνων ανά πάσα στιγμή.
- Αντί να εκτελούνται και οι 256 εμπειρογνώμονες για κάθε token (το οποίο θα ήταν υπολογιστικά δαπανηρό), ενεργοποιούνται μόνο οι 8 κορυφαίοι εμπειρογνώμονες. Αυτό μειώνει δραστικά το υπολογιστικό κόστος, ενώ εξακολουθεί να αξιοποιεί την πλήρη ικανότητα του μοντέλου.
Με την ενεργοποίηση μόνο ενός μικρού υποσυνόλου εμπειρογνωμόνων, το DeepSeek επιτυγχάνει αποδοτικότητα πόρων. Το μοντέλο μπορεί να κλιμακωθεί σε πολύ μεγάλο μέγεθος (όσον αφορά τις παραμέτρους) χωρίς ανάλογη αύξηση του υπολογισμού.

Η λανθάνουσα προσοχή πολλαπλών κεφαλών (MLA) είναι ένας ισχυρός μηχανισμός που συνδυάζει τα πλεονεκτήματα της προσοχής πολλαπλών κεφαλών και των αναπαραστάσεων λανθάνοντος χώρου για τη βελτίωση της αποδοτικότητας και της απόδοσης.
Δείτε πώς λειτουργεί στο DeepSeek:
- Στην τυπική προσοχή πολλαπλών κεφαλών, η είσοδος χωρίζεται σε πολλαπλές «κεφαλές», καθεμία από τις οποίες μαθαίνει να εστιάζει σε διαφορετικές πτυχές των δεδομένων.
- Τα δεδομένα εισόδου (π.χ. κείμενο, εικόνες ή άλλα δομημένα δεδομένα) πρώτα κωδικοποιούνται σε μια αναπαράσταση υψηλής διάστασης.
- Η αναπαράσταση εισόδου προβάλλεται σε έναν λανθάνων χώρο χαμηλότερης διάστασης χρησιμοποιώντας έναν μαθημένο μετασχηματισμό (π.χ. ένα επίπεδο νευρωνικού δικτύου).
- Η λανθάνουσα αναπαράσταση χωρίζεται σε πολλαπλές κεφαλές, καθεμία από τις οποίες υπολογίζει βαθμολογίες προσοχής στον λανθάνουσα χώρο. Αυτό επιτρέπει στο μοντέλο να εστιάζει αποτελεσματικά σε διαφορετικές πτυχές των δεδομένων.
- Λειτουργώντας σε έναν λανθάνοντα χώρο, το MLA μειώνει το υπολογιστικό κόστος των μηχανισμών προσοχής, καθιστώντας εφικτή την επεξεργασία μεγάλων συνόλων δεδομένων ή μακρών ακολουθιών.
Ο συνδυασμός της προσοχής πολλαπλών κεφαλών και των λανθάνουσων αναπαραστάσεων επιτρέπει στο μοντέλο να συλλαμβάνει σύνθετα μοτίβα και σχέσεις στα δεδομένα, οδηγώντας σε καλύτερες επιδόσεις σε εργασίες όπως η επεξεργασία φυσικής γλώσσας, τα συστήματα συστάσεων ή η ανάλυση δεδομένων.

Παραλλαγή της πρόβλεψης πολλαπλών Token στο DeepSeek
Η πρόβλεψη πολλαπλών λέξεων (MTP) είναι μια τεχνική που χρησιμοποιείται στα γλωσσικά μοντέλα για την πρόβλεψη πολλαπλών tokens (λέξεων ή υπολέξεων) που προηγούνται σε μια ακολουθία και όχι μόνο του επόμενου token. Αυτή η προσέγγιση μπορεί να βελτιώσει την ικανότητα του μοντέλου να παράγει συνεκτικό και ακριβές από άποψη συμφραζομένων κείμενο, καθώς ενθαρρύνει το μοντέλο να λαμβάνει υπόψη του τις μακροπρόθεσμες εξαρτήσεις και τη δομή των δεδομένων.
Δείτε πώς λειτουργεί στο DeepSeek:
- Η ακολουθία εισόδου (π.χ. μια πρόταση ή μια παράγραφος) κωδικοποιείται χρησιμοποιώντας μια αρχιτεκτονική βασισμένη σε μετασχηματιστές, η οποία καταγράφει πληροφορίες σχετικά με το πλαίσιο για κάθε token στην ακολουθία.
- Τα μοντέλα DeepSeek έχουν πολλαπλές κεφαλές εξόδου, καθεμία από τις οποίες εκπαιδεύεται για να προβλέπει ένα διαφορετικό μελλοντικό token.
- Η κεφαλή 1 προβλέπει το επόμενο token. Η κεφαλή 2 προβλέπει το μεθεπόμενο token. Η κεφαλή 3 προβλέπει το token δύο θέσεις πιο μπροστά.
- Κατά τη στιγμή της εξαγωγής συμπερασμάτων, το μοντέλο παράγει κείμενο αυτόνομα, αλλά η εκπαίδευση πολλαπλών κεφαλών εξασφαλίζει ότι κάθε πρόβλεψη ενημερώνεται από ένα ευρύτερο πλαίσιο, οδηγώντας σε πιο συνεκτική και ακριβή παραγωγή κειμένου.
Το DeepSeek εφαρμόζει την πρόβλεψη πολλαπλών συμβόλων για να βελτιώσει την ποιότητα των γλωσσικών μοντέλων του, καθιστώντας τα πιο αποτελεσματικά σε εργασίες όπως η παραγωγή κειμένου, η μετάφραση και η περίληψη.
Τρέχοντα μοντέλα
Δύο από τα πιο πρόσφατα μοντέλα DeepSeek είναι το DeepSeek-V3 που κυκλοφόρησε τον Δεκέμβριο του 2024 και το DeepSeek-R1 που κυκλοφόρησε τον Ιανουάριο του 2025.
Το V3 είναι άμεσος ανταγωνιστής του GPT 4o, ενώ το R1 μπορεί να συγκριθεί με το μοντέλο o1 της OpenAI:

Το DeepSeek-V3 είναι μια αξιόπιστη επιλογή για τις περισσότερες καθημερινές εργασίες, ικανή να απαντήσει σε ερωτήσεις για οποιοδήποτε θέμα. Λάμπει στη διεξαγωγή συνομιλιών με φυσικό ήχο και στην ανάδειξη της δημιουργικότητας. Αυτό το μοντέλο είναι καλό για τη συγγραφή, τη δημιουργία περιεχομένου ή την απάντηση γενικών ερωτήσεων που πιθανότατα έχουν απαντηθεί πολλές φορές στο παρελθόν.
Το DeepSeek-R1, από την άλλη πλευρά, λάμπει όταν πρόκειται για σύνθετες εργασίες επίλυσης προβλημάτων, λογικής και βήμα προς βήμα συλλογισμού. Το R1 σχεδιάστηκε για την αντιμετώπιση δύσκολων ερωτημάτων που απαιτούν ενδελεχή ανάλυση και δομημένες λύσεις. Αυτό το μοντέλο είναι εξαιρετικό για προκλήσεις κωδικοποίησης και ερωτήσεις με βαρύτητα στη λογική.
| Μοντέλο | Δυνατά σημεία | Αδυναμίες |
| DeepSeek-V3 | Γενική βοήθεια στην κωδικοποίηση και εξήγηση εννοιών με απλούστερους όρους | Μπορεί να θυσιάσει κάποια εξειδικευμένη τεχνογνωσία για την ευελιξία |
| Δημιουργική γραφή με βαθιά κατανόηση του πλαισίου | Μπορεί να γενικεύει υπερβολικά σε πολύ τεχνικούς τομείς | |
| Κατάλληλο για γρήγορη παραγωγή περιεχομένου | Δεν έχει ικανότητες συλλογισμού | |
| DeepSeek-R1 | Μπορεί να χειριστεί εξειδικευμένα τεχνικά καθήκοντα | Δυσκολεύεται με ευρύτερο πλαίσιο ή διφορούμενα ερωτήματα |
| Υψηλή ακρίβεια σε εξειδικευμένους τομείς (μαθηματικά ή κώδικας, για παράδειγμα) | Άκαμπτη και τυπική παραγωγή σε δημιουργικές εργασίες | |
| Βελτιστοποιημένη για τεχνική γραφή, όπως νομικά έγγραφα ή ακαδημαϊκές περιλήψεις | Λιγότερο ευπροσάρμοστο σε αλλαγές ύφους και τόνου |
Και τα δύο μοντέλα έχουν παρόμοια τεχνικά χαρακτηριστικά:
| DeepSeek-V3 | DeepSeek-R1 | |
| Βασικό μοντέλο | DeepSeek-V3-Base | DeepSeek-V3-Base |
| Τύπος | Μοντέλο γενικής χρήσης | Μοντέλο συλλογισμού |
| Παράμετροι | 671 δισεκατομμύρια (37 δισεκατομμύρια ενεργοποιημένα) | 671 δισεκατομμύρια (37 δισεκατομμύρια ενεργοποιημένα) |
| Μήκος πλαισίου | 128 χιλιάδες | 128 χιλιάδες |
Η βασική διαφορά έγκειται στην εκπαίδευσή τους. Ακολουθεί η εκπαίδευση του DeepSeek-R1 στο V3:
- Ψυχρή εκκίνηση Βελτιστοποίηση: Αντί να κατακλύσει το μοντέλο με μεγάλο όγκο δεδομένων αμέσως, ξεκινάει με ένα μικρότερο, υψηλής ποιότητας σύνολο δεδομένων για να βελτιώσει τις απαντήσεις του από την αρχή.
- Ενισχυτική μάθηση χωρίς ανθρώπινες ετικέτες: Σε αντίθεση με το V3, το DeepSeek-R1 βασίζεται εξ ολοκλήρου σε RL, δηλαδή μαθαίνει να σκέφτεται ανεξάρτητα αντί να μιμείται απλώς τα δεδομένα εκπαίδευσης.
- Δειγματοληψία απόρριψης για συνθετικά δεδομένα: Το μοντέλο παράγει πολλαπλές απαντήσεις και μόνο οι απαντήσεις με την καλύτερη ποιότητα επιλέγονται για να εκπαιδευτεί περαιτέρω.
- Συνδυασμός εποπτευόμενων και συνθετικών δεδομένων: Τα δεδομένα εκπαίδευσης συγχωνεύουν τις καλύτερες απαντήσεις που παράγει η τεχνητή νοημοσύνη με τα εποπτευόμενα, λεπτομερώς ρυθμισμένα δεδομένα από το DeepSeek-V3.
- Τελική διαδικασία RL: Ένας τελικός γύρος ενισχυτικής μάθησης διασφαλίζει ότι το μοντέλο γενικεύεται καλά σε μια μεγάλη ποικιλία προτροπών και μπορεί να συλλογίζεται αποτελεσματικά σε διάφορα θέματα.
Τώρα, ας δούμε μερικά σημεία αναφοράς για να δούμε πώς συγκρίνονται τόσο το V3 όσο και το R1 με άλλα δημοφιλή μοντέλα:

Τα AIME 2024 και MATH-500 είναι μαθηματικά benchmarks, τα GPQA Diamond και MMLU είναι τεστ γενικών γνώσεων και, τέλος, τα Codeforces και SWE-bench Verified είναι benchmarks κωδικοποίησης.
Αποσταγμένα μοντέλα DeepSeek
Η απόσταξη στην τεχνητή νοημοσύνη είναι η διαδικασία δημιουργίας μικρότερων, αποδοτικότερων μοντέλων από μεγαλύτερα, διατηρώντας μεγάλο μέρος της συλλογιστικής τους δύναμης και μειώνοντας παράλληλα τις υπολογιστικές απαιτήσεις.
Η ανάπτυξη των V3 και R1 δεν είναι πρακτική για όλους, καθώς απαιτούν 8 GPU NVIDIA H200 με 141 GB μνήμης η καθεμία. Γι' αυτό το λόγο η DeepSeek δημιούργησε 6 αποσταγμένα μοντέλα που κυμαίνονται από 1,5 δισεκατομμύρια έως 70 δισεκατομμύρια παραμέτρους:
- Ξεκίνησαν με έξι μοντέλα ανοικτού κώδικα από το Llama 3.1/3.3 και το Qwen 2.5.
- Στη συνέχεια, δημιούργησαν 800.000 δείγματα συλλογισμού υψηλής ποιότητας χρησιμοποιώντας το R1.
- Και τέλος, τελειοποίησαν τα μικρότερα μοντέλα σε αυτά τα συνθετικά δεδομένα συλλογισμού.
Δείτε πώς τα πήγαν αυτά τα έξι μοντέλα σε βασικά benchmarks, αποδεικνύοντας τις ικανότητές τους στα μαθηματικά (AIME 2024 και MATH-500), στις γενικές γνώσεις (GPQA Diamond) και στον προγραμματισμό (LiveCode Bench και CodeForces):

Όπως ήταν αναμενόμενο, καθώς ο αριθμός των παραμέτρων αυξανόταν, τα αποτελέσματα βελτιώνονταν. Το μικρότερο μοντέλο με 1,5 δισεκατομμύριο παραμέτρους είχε τις χειρότερες επιδόσεις, ενώ το μεγαλύτερο μοντέλο με 70 δισεκατομμύρια παραμέτρους είχε τις καλύτερες επιδόσεις. Περιέργως, το πιο ισορροπημένο μοντέλο μοιάζει με το Qwen-32B, το οποίο είναι σχεδόν εξίσου καλό με το Llama-70B, παρόλο που έχει τις μισές παραμέτρους.
Το μέλλον του DeepSeek
Το DeepSeek έχει σημειώσει αξιοσημείωτη επιτυχία σε σύντομο χρονικό διάστημα, κερδίζοντας παγκόσμια αναγνώριση σχεδόν εν μία νυκτί. Το chatbot φάνηκε να εμφανίζεται από το πουθενά, αλλά υπάρχει ο κίνδυνος να εξασθενίσει εξίσου γρήγορα. Η διατήρηση της προβολής και της εμπιστοσύνης της μάρκας μακροπρόθεσμα αποτελεί σημαντική πρόκληση, ειδικά σε μια τόσο έντονα ανταγωνιστική αγορά. Τεχνολογικοί γίγαντες όπως η Google και η OpenAI διαθέτουν προϋπολογισμούς που ξεπερνούν κατά πολύ τους οικονομικούς πόρους της DeepSeek, ενώ διαθέτουν και τεχνικό πλεονέκτημα.
Ένα από τα σημαντικότερα εμπόδια που αντιμετωπίζει η DeepSeek είναι το χάσμα υπολογιστών. Σε σύγκριση με τους ομολόγους της στις ΗΠΑ, η DeepSeek λειτουργεί με σημαντικό μειονέκτημα όσον αφορά την υπολογιστική ισχύ. Το χάσμα αυτό επιδεινώνεται από τους αμερικανικούς ελέγχους εξαγωγών σε προηγμένα τσιπ, οι οποίοι περιορίζουν την πρόσβαση της DeepSeek στο πιο σύγχρονο υλικό που απαιτείται για την ανάπτυξη και την ανάπτυξη πιο ισχυρών μοντέλων τεχνητής νοημοσύνης.
Ενώ η DeepSeek έχει επιδείξει εντυπωσιακή αποτελεσματικότητα στις δραστηριότητές της, η πρόσβαση σε πιο προηγμένους υπολογιστικούς πόρους θα μπορούσε να επιταχύνει σημαντικά την πρόοδό της και να ενισχύσει την ανταγωνιστικότητά της έναντι εταιρειών με μεγαλύτερες δυνατότητες. Η κάλυψη αυτού του χάσματος υπολογιστών είναι ζωτικής σημασίας για την DeepSeek προκειμένου να κλιμακώσει τις καινοτομίες της και να καθιερωθεί ως ισχυρότερος διεκδικητής στην παγκόσμια σκηνή.
Τούτου λεχθέντος, είναι σημαντικό να μην παρουσιάζουμε μια πολύ ζοφερή εικόνα, διότι η DeepSeek έχει ήδη επιτύχει κάτι αξιοσημείωτο. Η εταιρεία απέδειξε ότι ακόμη και με περιορισμένους πόρους είναι δυνατή η δημιουργία ενός προϊόντος παγκόσμιας κλάσης - κάτι που πολλοί πίστευαν ότι ήταν εφικτό μόνο με προϋπολογισμούς δισεκατομμυρίων δολαρίων και τεράστιες υποδομές. Η επιτυχία της DeepSeek είναι πιθανό να εμπνεύσει αμέτρητους άλλους και να επιταχύνει περαιτέρω την ήδη ταχεία πρόοδο των τεχνολογιών τεχνητής νοημοσύνης.