Ηγέτες σκέψης
Το Μυστικό για Ταχύτερο AI Δεν Είναι Περισσότερα GPUs, Αλλά Έξυπνη Δικτύωση

Το AI αναedefinει τι είναι δυνατό σε διάφορους τομείς, συμπεριλαμβανομένης της υγείας, των χρηματοοικονομικών, της παραγωγής και του λιανικού εμπορίου. Nhưng με την υποσχόμενη δυνατότητα, επίσης φέρνει τεράστια απαιτήσεις υποδομής.
Οι οργανισμοί σε όλο τον κόσμο επενδύουν σε GPUs σε άνευ προηγουμένου κλίμακα για να επιταχύνουν την εκπαίδευση και την εύρεση του AI. Μέχρι το 2028, η Gartner προβλέπει ότι οι δαπάνες για γεννητικό AI θα ξεπεράσουν τα 1 τρις δολάρια. Η Hyperion Research προβλέπει ότι η συνολική αγορά HPC θα ξεπεράσει τα 100 δισεκατομμύρια δολάρια την ίδια χρονική περίοδο. Όμως, παρά την επένδυση σε προηγμένα επιταχυντές, πολλοί διευθυντές πληροφορικής συνεχίζουν να βλέπουν ανενεργούς GPUs, με τη χρήση να κυμαίνεται στο 35% ή χαμηλότερα. Αυτό οδηγεί не μόνο σε υποπαράσταση αλλά και σε σπατάλη ενέργειας και πληθωριστικές δαπάνες.
Ενώ πολλά προγράμματα AI σταματούν, δεν είναι επειδή λείπουν GPUs ή υπολογιστική δύναμη, αλλά επειδή το δίκτυο δεν μπορεί να跟erei, απαιτώντας μια νέα προσέγγιση για τον σχεδιασμό του AI σε κλίμακα.
Η Κρυφή Κόστος των Δικτυακών Σφαλμάτων
Όταν τα δίκτυα δεν μπορούν να προμηθεύσουν δεδομένα αρκετά γρήγορα για να διατηρήσουν τους GPUs συνεχώς απασχολημένους, οι οργανισμοί βιώνουν αρκετές κρίσιμες επιπτώσεις:
- Ανενεργοί GPUs και CPUs λόγω δίκτυων με σφάλματα μεταφοράς δεδομένων: Οι GPUs σχεδιάζονται για μαζικά παράλληλη επεξεργασία, αλλά μπορούν να επεξεργαστούν δεδομένα όσο γρήγορα μεταφέρονται. Αν το δίκτυο δεν μπορεί να跟erei, οι GPUs περιμένουν ανενεργοί για δεδομένα αντί να επεξεργάζονται αριθμούς. Οι CPUs μπορεί επίσης να σταματήσουν,既然 ότι συντονίζουν εργασίες και μετακινούν δεδομένα μέσω του αγωγού, οδηγώντας σε χαμηλή χρήση παρά την διαθεσιμότητα ακριβών υλικών.
- Ασυνεχής απόδοση inference από ανεπαρκές δίκτυο: Οι ανεπαρκείες του δικτύου δημιουργούν ανώμαλους ροές δεδομένων, khiến τους GPUs να μεταβαίνουν μεταξύ πλήρους ταχύτητας και ανενεργών καταστάσεων. Αυτό παράγει απρόβλεπτη απόδοση inference που μπορεί να καταστρέψει τις εφαρμογές AI στην παραγωγή.
- Μακρύτεροι κύκλοι εκπαίδευσης, καθυστερώντας τον χρόνο-προς-αγορά: Η εκπαίδευση μοντέλων AI απαιτεί τη μετακίνηση τεράστιων συνόλων δεδομένων μεταξύ διακομιστών, GPUs και αποθήκευσης. Τα δίκτυα με σφάλματα θωρακίζουν αυτή τη διαδικασία, οπότε οι GPUs ξοδεύουν λιγότερο χρόνο στην εκπαίδευση και περισσότερο χρόνο περιμένοντας. Αυτό επιβραδύνει απευθείας την ανάπτυξη και την ανάπτυξη προϊόντων.
- Αυξανόμενες δαπάνες ενέργειας και λειτουργίας: Ακόμη και όταν είναι ανενεργοί, οι GPUs και η περιβάλλουσα υποδομή vẫn καταναλώνουν σημαντική ενέργεια. Αν οι GPUs είναι ανενεργοί λόγω δίκτυων με σφάλματα, οι οργανισμοί πληρώνουν για υψηλή κατανάλωση ενέργειας χωρίς να λαμβάνουν αναλογική απόδοση. Οι δαπάνες λειτουργίας αυξάνονται,既然 ότι οι εγκαταστάσεις πρέπει να υποστηρίξουν φορτία πίく και ψύξης, ακόμη και αν η υπολογιστική απόδοση είναι τεχνητά περιορισμένη.
Οι επιχειρήσεις μπορούν να συνεχίσουν να ρίχνουν χρήματα σε περισσότερα GPUs, αλλά χωρίς τις σωστές βελτιώσεις δικτύου, θα ενισχύσουν μόνο αυτά τα δίκτυα με σφάλματα και τις ανεπαρκείες.
Δίκτυο ως Επιταχυντής: Μια Νέα Προσέγγιση
Η λύση απαιτεί να ξανασχεδιαστεί η αρχιτεκτονική του δικτύου ολόκληρη. Η εισαγωγή ενός μοντέλου που χρησιμοποιεί το δίκτυο ως επιταχυντή αναστρέφει την παραδοσιακή σκέψη για την απόδοση HPC και AI για να ξεκλειδώσει νέες ικανότητες.
Αντί να επικεντρωθεί κυρίως στην προσθήκη περισσότερης υπολογιστικής δύναμης μέσω GPUs και CPUs, η προσέγγιση “δίκτυο ως επιταχυντής” αντιμετωπίζει το δίκτυο ως einen πολλαπλασιαστή απόδοσης. Ως αποτέλεσμα, το δίκτυο μπορεί να υποστηρίξει καλύτερα την υψηλή πυκνότητα υπολογισμού και να επιταχύνει τον ROI εξαλείφοντας τα δίκτυα με σφάλματα, κλιμάκωση για να ικανοποιήσει τις απαιτήσεις υπολογισμού και σωστή διαχείριση των επενδύσεων σε υλικό. Επιτρέποντας μεγαλύτερη υπολογιστική δύναμη χωρίς επιβράδυνση, οι οργανισμοί μπορούν να τρέχουν μεγαλύτερες εργασίες σε μικρότερο χώρο, να λαμβάνουν αποτελέσματα γρηγορότερα και να αποφεύγουν την υπερχρέωση για επιπλέον υλικό.
Πώς Λειτουργεί το Μοντέλο “Δίκτυο ως Επιταχυντής”
Πώς λειτουργεί αυτό το μοντέλο, ώστε οι οργανισμοί να μπορέσουν να μετατρέψουν το δίκτυό τους από ένα παθητικό μεταφορέα δεδομένων σε einen ενεργό ενεργοποιητή υπολογισμού και να αρχίσουν να λαμβάνουν τα οφέλη; Παρέχει τέσσερις βασικές ικανότητες που τα παραδοσιακά δίκτυα δεν έχουν:
- Εγγυημένη παράδοση στο επίπεδο υλικού: Τα παραδοσιακά δίκτυα επιβαρύνουν τους CPUs και GPUs με την υπερβολική εργασία της παρακολούθησης πακέτων, της επαναμεταγωγής και της ανακατάταξης. Αυτό καταναλώνει κύκλους υπολογισμού που θα μπορούσαν να αφιερωθούν στην εκπαίδευση ή την εύρεση. Με ένα δίκτυο που εγγυάται την παράδοση στο επίπεδο υλικού, αυτές οι εργασίες μεταφέρονται μακριά από τους κόμβους υπολογισμού, οδηγώντας σε μειωμένη υπερβολική εργασία CPU και GPU, προβλέψιμη και συνεχή απόδοση, και κλιμάκωση που απλοποιεί την προγραμματισμό και την ορχήστρα του cluster.
- Εντελώς δυναμική διαδρομή: Η παραδοσιακή διαδρομή βασίζεται σε σταθερές ή υποβέλτιστες διαδρομές, οι οποίες μπορούν να αφήσουν τμήματα του δικτύου ανενεργά ή να δημιουργήσουν δίκτυα με σφάλματα όπου τεράστιοι όγκοι δεδομένων ρέουν ταυτόχρονα. Η εντελώς δυναμική διαδρομή αξιοποιεί δυναμικά όλες τις διαθέσιμες διαδρομές για να βελτιώσει τη ροή του траφικού. Επιτρέπει υψηλότερη απόδοση με πολλές ενεργές διαδρομές που ισορροπούν τον траφικό, χαμηλότερη καθυστέρηση μέσω της βέλτιστης επιλογής διαδρομής και βελτιωμένη ανθεκτικότητα, καθώς ο траφικός του δικτύου ανακατευθύνεται αυτόματα γύρω από αποτυχίες σύνδεσμου ή κόμβων. Αυτό μειώνει τους καιρούς αναμονής και διατηρεί τους GPUs πλήρως τροφοδοτούμενους με δεδομένα.
- Αυτόματη επαναμεταγωγή στο επίπεδο σύνδεσμου: Όταν τα πακέτα χαθούν ή διαβλαφθούν, τα τυπικά δίκτυα εξαρτώνται από το επίπεδο υπολογισμού για να ανιχνεύσουν και να επαναμεταδώσουν, εισάγοντας σημαντική καθυστέρηση και διατάραξη της ροής υπολογισμού. Ένα δίκτυο με ενσωματωμένες, αυτόματες επαναμεταγωγές στο επίπεδο σύνδεσμου χειρίζεται τις επαναμεταγωγές μέσα στο δίκτυο. Επιτρέπει σχεδόν διαφανή αξιοπιστία, καθώς η απώλεια πακέτων γίνεται αόρατη για τους κόμβους υπολογισμού, ενώ μειώνει την επίδραση καθυστέρησης, καθώς οι επαναμεταγωγές συμβαίνουν τοπικά στο σύνδεσμο και όχι σε όλο το στοίβα δίκτυου. Επίσης, εξαλείφει την ανάγκη για σύνθετη χειρισμό σφαλμάτων σε επίπεδο εφαρμογής. Οι αυτόματες επαναμεταγωγές εξασφαλίζουν αδιάκοπη, αποτελεσματική κατανομή υπολογισμού, που είναι σημαντικό όταν κλιμακώνεται σε χιλιάδες GPUs.
- Υπολογισμός στο δίκτυο: Ενώ τα παραδοσιακά δίκτυα μετακινούν κυρίως δεδομένα, ο υπολογισμός στο δίκτυο επιτρέπει στο δίκτυο να γίνει συν-επεξεργαστής, εκτελώντας ορισμένες λειτουργίες直接 μέσα στο δίκτυο. Το NVIDIA SHARP είναι ένα πρώτο παράδειγμα – επιτρέπει μειώσεις να συμβούν στα ίδια τα δίκτυα. Αυτό επιτρέπει επιταχυνόμενες κατανομικές λειτουργίες, μειώνει την καθυστέρηση, καθώς τα δεδομένα συλλέγονται καθώς διασχίζουν το δίκτυο, και αυξάνει την αποτελεσματικότητα, καθώς οι κόμβοι υπολογισμού απαλλάσσονται από την εκτέλεση εργασιών συλλογής, αφήνοντας περισσότερους κύκλους για εκπαίδευση και模拟.
Συνολικά, αυτές οι ικανότητες είναι αυτές που κάνουν το “δίκτυο-οδηγούμενο υπολογισμό” θεμελιώδες για την κλιμάκωση των περιβαλλόντων AI και HPC της επόμενης γενιάς. Μια δίκτυο-κεντρική προσέγγιση παρέχει ουσιαστικά οφέλη, τα οποία περιλαμβάνουν υψηλότερη χρήση GPU που εξαλείφει την πείνα δεδομένων, ταχύτερο χρόνο-προς-γνώση που μειώνει τους κύκλους εκπαίδευσης και σταθεροποιεί την απόδοση inference, βελτιωμένη αποτελεσματικότητα πόρων και χαμηλότερο συνολικό κόστος ιδιοκτησίας.
Ανακάλυψη της Αληθινής Δικτυακής Ισχύος
Το AI σε κλίμακα δεν είναι μόνο ένα πρόβλημα υπολογισμού – είναι μια πρόκληση μηχανικής σε επίπεδο συστήματος, με το δίκτυο στο κέντρο της. Η αντιμετώπιση του δικτύου ως επιταχυντή το μετατρέπει σε einen πολλαπλασιαστή απόδοσης για τον υπολογισμό, επιτρέποντας στα κέντρα δεδομένων HPC και AI να κλιμακώσουν σε πυκνότητα χωρίς να θυσιάσουν την απόδοση. Παρέχει μετρήσιμο ROI γρηγορότερα, εξάγωντας την μέγιστη αξία από την υπάρχουσα υποδομή πριν από την επένδυση σε περισσότερο σιλικόνιο.
Εξαλείφοντας τα δίκτυα με σφάλματα, αυξάνοντας την उपयποίηση και παρέχοντας προβλέψιμη απόδοση, η έξυπνη δικτύωση επιτρέπει σε πιο παραγωγικές ομάδες AI, καλύτερο ROI σε υποδομή GPU και ταχύτερο χρόνο-προς-γνώση, καινοτομία και ηγεσία στην αγορά. Επιτρέπει στους οργανισμούς να ανακαλύψουν τι μπορεί πραγματικά να κάνει το δίκτυό τους και να αξιοποιήσουν τη δύναμη του AI με νέους τρόπους.












