Τεχνητή νοημοσύνη
Πώς το DeepSeek έσπασε τον φραγμό του κόστους με $5,6 εκατ.

Η συμβατική σοφία του AI υποδηλώνει ότι η κατασκευή μεγάλων μοντέλων γλωσσικών λεξικών (LLMs) απαιτεί βαθιά τσέπες – συνήθως δισεκατομμύρια σε επένδυση. Nhưng DeepSeek, ένα κινεζικό стαρτ απ του AI, μόλις έσπασε αυτό το παράδειγμα με την τελευταία τους επιτεύγματα: την ανάπτυξη ενός παγκόσμιου μοντέλου AI για μόλις $5,6 εκατομμύρια.
Το μοντέλο V3 του DeepSeek μπορεί να ανταγωνιστεί τους γίγαντες της βιομηχανίας όπως Google’s Gemini και OpenAI’s latest offerings, όλα αυτά χρησιμοποιώντας ένα κλάσμα των τυπικών υπολογιστικών πόρων. Η επιτεύγματα έπιασε την προσοχή πολλών ηγετών της βιομηχανίας, και αυτό που κάνει αυτό ιδιαίτερα αξιοσημείωτο είναι ότι η εταιρεία το κατόρθωσε παρά τις περιορισμοί εξαγωγής των ΗΠΑ που περιόριζαν την πρόσβασή τους στα τελευταία Nvidia chips.
Η Οικονομία της Αποδοτικής AI
Τα νούμερα διηγούνται μια πειστική ιστορία της αποδοτικότητας. Ενώ τα περισσότερα προηγμένα μοντέλα AI απαιτούν μεταξύ 16.000 και 100.000 GPUs για εκπαίδευση, το DeepSeek διαχειρίστηκε με μόνο 2.048 GPUs που εκτελούνταν για 57 ημέρες. Η εκπαίδευση του μοντέλου κατανάλωσε 2,78 εκατομμύρια GPU ώρες σε Nvidia H800 chips – αξιοσημείωτα σεμνά για ένα μοντέλο 671 δισεκατομμυρίων παραμέτρων.
Για να τοποθετήσουμε αυτό σε προοπτική, η Meta χρειαζόταν περίπου 30,8 εκατομμύρια GPU ώρες – περίπου 11 φορές περισσότερη υπολογιστική δύναμη – για την εκπαίδευση του Llama 3 μοντέλου, το οποίο στην πραγματικότητα έχει λιγότερες παραμέτρους στα 405 δισεκατομμύρια. Η προσέγγιση του DeepSeek μοιάζει με ένα μάστερ κλάς στην βελτιστοποίηση υπό περιορισμούς. Εργαζόμενοι με H800 GPUs – AI chips σχεδιασμένα από την Nvidia ειδικά για την κινεζική αγορά με μειωμένες ικανότητες – η εταιρεία μετέτρεψε τις πιθανές περιορισμούς σε καινοτομία. Αντί να χρησιμοποιούν λύσεις off-the-shelf για την επικοινωνία του επεξεργαστή, ανέπτυξαν προσαρμοσμένες λύσεις που μεγιστοποιούσαν την αποδοτικότητα.
Ενώ οι ανταγωνιστές συνεχίζουν να λειτουργούν υπό την υπόθεση ότι οι τεράστιες επενδύσεις είναι απαραίτητες, το DeepSeek αποδεικνύει ότι η εφευρετικότητα και η αποδοτική χρήση των πόρων μπορεί να ισοπεδώσει το πεδίο.

Εικόνα: Artificial Analysis
Μηχανική του Αδύνατου
Η επιτεύγματα του DeepSeek έγκειται στην καινοτόμο τεχνική τους προσέγγιση, δείχνοντας ότι μερικές φορές οι πιο σημαντικές επιτεύγματα έρχονται από την εργασία μέσα σε περιορισμούς παρά από το ρίξιμο απεριόριστων πόρων σε ένα πρόβλημα.
Στην καρδιά αυτής της καινοτομίας είναι μια στρατηγική που ονομάζεται “auxiliary-loss-free load balancing”. Σκεφτείτε το σαν την ορχήστρα μιας τεράστιας παράλληλης επεξεργασίας συστήματος όπου παραδοσιακά, θα χρειαζόσασταν σύνθετα κανόνες και ποινές για να διατηρήσετε όλα να τρέχουν ομαλά. Το DeepSeek ανέτρεψε αυτή τη συμβατική σοφία, αναπτύσσοντας ένα σύστημα που διατηρεί φυσικά την ισορροπία χωρίς την επιβάρυνση των παραδοσιακών προσεγγίσεων.
Η ομάδα επίσης ανέπτυξε αυτό που ονομάζουν “Multi-Token Prediction” (MTP) – μια τεχνική που επιτρέπει στο μοντέλο να σκέφτεται μπροστά προβλέποντας πολλαπλά tokens ταυτόχρονα. Σε πρακτική, αυτό μεταφράζεται σε ένα εντυπωσιακό 85-90% ποσοστό αποδοτικότητας για αυτές τις προβλέψεις σε διάφορα θέματα, παρέχοντας 1,8 φορές ταχύτερη επεξεργασία από τις προηγούμενες προσεγγίσεις.
Η τεχνική αρχιτεκτονική είναι ένα αριστούργημα της αποδοτικότητας. Το V3 του DeepSeek απασχολεί μια смесь-των-ειδικών προσέγγιση με 671 δισεκατομμύρια συνολικά παραμέτρους, αλλά εδώ είναι το έξυπνο μέρος – ενεργοποιεί μόνο 37 δισεκατομμύρια για κάθε token. Αυτή η επιλεκτική ενεργοποίηση σημαίνει ότι παίρνουν τα οφέλη ενός τεράστιου μοντέλου ενώ διατηρούν την πρακτική αποδοτικότητα.
Η επιλογή τους για FP8 mixed precision training framework είναι ένα άλλο βήμα μπροστά. Αντί να αποδεχτούν τις συμβατικές περιορισμούς της μειωμένης ακρίβειας, ανέπτυξαν προσαρμοσμένες λύσεις που διατηρούν την ακρίβεια ενώ μειώνουν σημαντικά τις απαιτήσεις μνήμης και υπολογισμού.
Κύματα σε Οικοσύστημα του AI
Η επιρροή της επιτεύγματος του DeepSeek εκτείνεται πολύ πέρα από ένα単ο επιτυχημένο μοντέλο.
Για την ανάπτυξη του AI στην Ευρώπη, αυτή η επιτεύγματα είναι ιδιαίτερα σημαντική. Πολλλά προηγμένα μοντέλα δεν φτάνουν στην ΕΕ επειδή εταιρείες όπως η Meta και η OpenAI είτε δεν μπορούν είτε δεν θέλουν να προσαρμόσουν τον Νόμο του AI της ΕΕ. Η προσέγγιση του DeepSeek δείχνει ότι η κατασκευή προηγμένου AI δεν απαιτεί πάντα τεράστιους GPU clusters – είναι περισσότερο για την αποδοτική χρήση των διαθέσιμων πόρων.
Αυτή η ανάπτυξη επίσης δείχνει πώς οι περιορισμοί εξαγωγής μπορούν να οδηγήσουν στην καινοτομία. Η περιορισμένη πρόσβαση του DeepSeek σε υψηλής απόδοσης υλικό τους ανάγκασε να σκεφτούν διαφορετικά, με αποτέλεσμα λογισμικά βελτιστοποιήσεων που μπορεί να μην είχαν εμφανιστεί σε ένα περιβάλλον πλούσιο σε πόρους. Αυτό το principio θα μπορούσε να αναμορφώσει τον τρόπο που προσεγγίζουμε την ανάπτυξη του AI παγκοσμίως.
Οι επιπτώσεις της δημοκρατικοποίησης είναι βαθιές. Ενώ οι γίγαντες της βιομηχανίας συνεχίζουν να καίνε δισεκατομμύρια, το DeepSeek έχει δημιουργήσει ένα σχέδιο για αποδοτική, οικονομική ανάπτυξη του AI. Αυτό θα μπορούσε να ανοίξει πόρτες για μικρότερες εταιρείες και ερευνητικά ιδρύματα που προηγουμένως δεν μπορούσαν να ανταγωνιστούν λόγω περιορισμών πόρων.
Ωστόσο, αυτό δεν σημαίνει ότι η υπολογιστική υποδομή μεγάλης κλίμακας γίνεται απαρχαιωμένη. Η βιομηχανία μετατοπίζει την εστίασή της στην κλίμακα του χρόνου εύρεσης – πόσο χρόνο μιας μοντέλου παίρνει για να παράγει απαντήσεις. Όσο αυτή η τάση συνεχίζεται, σημαντικοί υπολογιστικοί πόροι θα είναι ακόμη απαραίτητοι, πιθανότατα ακόμη περισσότερο με την πάροδο του χρόνου.
Αλλά το DeepSeek έχει αλλάξει ουσιαστικά τη συζήτηση. Οι μακροπρόθεσμες επιπτώσεις είναι σαφείς: εισερχόμαστε σε μια εποχή όπου η καινοτόμος σκέψη και η αποδοτική χρήση των πόρων θα μπορούσε να σημαίνει περισσότερο από την καθαρή υπολογιστική δύναμη. Για την κοινότητα του AI, αυτό σημαίνει ότι θα πρέπει να εστιάσουμε όχι μόνο στους πόρους που έχουμε, αλλά και στο πώς χρησιμοποιούμε δημιουργικά και αποδοτικά.












