Συνδεθείτε μαζί μας

Ο επόμενος νόμος κλιμάκωσης της τεχνητής νοημοσύνης: Όχι περισσότερα δεδομένα, αλλά καλύτερα παγκόσμια μοντέλα

Τεχνητή Γενική Νοημοσύνη

Ο επόμενος νόμος κλιμάκωσης της τεχνητής νοημοσύνης: Όχι περισσότερα δεδομένα, αλλά καλύτερα παγκόσμια μοντέλα

mm

Για χρόνια, η βιομηχανία τεχνητής νοημοσύνης ακολουθούσε έναν απλό, βάναυσο κανόνα: όσο μεγαλύτερο τόσο καλύτερο. Εκπαιδεύσαμε μοντέλα σε τεράστια σύνολα δεδομένων, αυξήσαμε τον αριθμό των παραμέτρων και αξιοποιήσαμε τρομερά υπολογιστική ισχύ στο πρόβλημα. Αυτός ο τύπος λειτούργησε τις περισσότερες φορές. Από το GPT-3 έως το GPT-4, και από τα πρόχειρα chatbots έως τις μηχανές συλλογισμού, το «νόμος κλιμάκωσης«υποδήλωνε ότι αν συνεχίζαμε να τροφοδοτούμε το μηχάνημα με περισσότερο κείμενο, τελικά θα γινόταν έξυπνο.»

Αλλά τώρα είμαστε χτυπώντας έναν τοίχοΤο διαδίκτυο είναι πεπερασμένο. Τα δημόσια δεδομένα υψηλής ποιότητας εξαντλούνται και τα οφέλη από την απλή δημιουργία μεγαλύτερων μοντέλων είναι μειώνονταςΟι κορυφαίοι ερευνητές Τεχνητής Νοημοσύνης Υποστηρίζουν ότι το επόμενο μεγάλο άλμα στην τεχνητή νοημοσύνη δεν θα προέλθει μόνο από την ανάγνωση περισσότερου κειμένου. Θα προέλθει από την κατανόηση της πραγματικότητας πίσω από το κείμενο. Αυτή η πεποίθηση σηματοδοτεί μια θεμελιώδη μετατόπιση στην εστίαση της Τεχνητής Νοημοσύνης, εγκαινιάζοντας την εποχή του Παγκόσμιου Μοντέλου.

Τα Όρια της Πρόβλεψης του Επόμενου Συμβολαίου

Για να κατανοήσουμε γιατί χρειαζόμαστε μια νέα προσέγγιση, πρέπει πρώτα να εξετάσουμε τι κάνουν στην πραγματικότητα τα τρέχοντα συστήματα Τεχνητής Νοημοσύνης. Παρά τις εντυπωσιακές δυνατότητές τους, μοντέλα όπως το ChatGPT ή το Claude είναι ουσιαστικά... στατιστικές μηχανέςΠροβλέπουν την επόμενη λέξη σε μια ακολουθία με βάση την πιθανότητα αυτού που προηγήθηκε. Δεν καταλαβαίνουν ότι ένα ποτήρι που θα πέσει θα θρυμματιστεί. Απλώς γνωρίζουν ότι σε εκατομμύρια ιστορίες, η λέξη «θρυμματίζεται» συχνά ακολουθεί τη φράση «πέφτει ποτήρι».

Αυτή η προσέγγιση, γνωστή ως αυτοεπιθετική μοντελοποίηση, έχει ένα κρίσιμο ελάττωμα. Βασίζεται εξ ολοκλήρου στη συσχέτιση, όχι στην αιτιώδη συνάφεια. Αν εκπαιδεύσετε έναν LLM σε χίλιες περιγραφές ενός τροχαίου ατυχήματος, μαθαίνει τη γλώσσα των ατυχημάτων. Αλλά ποτέ δεν μαθαίνει τη φυσική της ορμής, της τριβής ή της ευθραυστότητας. Είναι θεατής, όχι συμμετέχων.

Αυτός ο περιορισμός γίνεται το «Τείχος Δεδομένων«Έχουμε σχεδόν καταγράψει ολόκληρο το δημόσιο διαδίκτυο. Για να επεκταθούμε περαιτέρω χρησιμοποιώντας την τρέχουσα μέθοδο, θα χρειαζόμασταν εκθετικά περισσότερα δεδομένα από όσα υπάρχουν. Τα συνθετικά δεδομένα (δηλαδή κείμενο που δημιουργείται από την Τεχνητή Νοημοσύνη) προσφέρουν μια προσωρινή λύση, αλλά συχνά οδηγούν σε «κατάρρευση μοντέλου», όπου το σύστημα ενισχύει τις δικές του προκαταλήψεις και σφάλματα. Δεν μπορούμε να φτάσουμε στην Τεχνητή Γενική Νοημοσύνη (AGI) χρησιμοποιώντας μόνο κείμενο, επειδή το κείμενο είναι μια συμπίεση του κόσμου χαμηλού εύρους ζώνης. Περιγράφει την πραγματικότητα, αλλά δεν είναι η ίδια η πραγματικότητα.

Γιατί τα Παγκόσμια Μοντέλα Σημασία έχουν

AI ηγέτες όπως ο Yann LeCun έχουν υποστηρίξει εδώ και καιρό ότι τα τρέχοντα συστήματα Τεχνητής Νοημοσύνης στερούνται μιας θεμελιώδους πτυχής της ανθρώπινης νόησης που ακόμη και τα μικρά παιδιά κατέχουν φυσικά. Αυτή είναι η ικανότητά μας να διατηρούμε ένα εσωτερικό μοντέλο για το πώς λειτουργεί ο κόσμος, το οποίο συνήθως αποκαλούν Παγκόσμιο μοντέλοΈνα Παγκόσμιο Μοντέλο δεν προβλέπει απλώς την επόμενη λέξη. Δημιουργεί έναν εσωτερικό νοητικό χάρτη για το πώς λειτουργεί το φυσικό περιβάλλον. Όταν βλέπουμε μια μπάλα να κυλάει πίσω από έναν καναπέ, ξέρουμε ότι είναι ακόμα εκεί. Ξέρουμε ότι θα εμφανιστεί στην άλλη πλευρά εκτός αν σταματήσει. Δεν χρειάζεται να διαβάσουμε κάποιο εγχειρίδιο για να το καταλάβουμε αυτό. Εκτελούμε μια νοητική προσομοίωση βασισμένη στο εσωτερικό μας «κοσμικό μοντέλο» φυσικής και μονιμότητας αντικειμένων.

Για να προχωρήσει η Τεχνητή Νοημοσύνη, πρέπει να μεταβεί από τη στατιστική μίμηση σε αυτό το είδος εσωτερικής προσομοίωσης. Πρέπει να κατανοήσει τις υποκείμενες αιτίες των γεγονότων, όχι μόνο τις περιγραφές τους μέσω κειμένου.

The Αρχιτεκτονική Προγνωστικής Ενσωμάτωσης με Κοινή Ενσωμάτωση (JEPA) αποτελεί ένα χαρακτηριστικό παράδειγμα αυτής της αλλαγής παραδείγματος. Σε αντίθεση με τα LLM, τα οποία προσπαθούν να προβλέψουν κάθε pixel ή λέξη (μια διαδικασία που είναι υπολογιστικά δαπανηρή και θορυβώδης), το JEPA προβλέπει αφηρημένες αναπαραστάσεις. Αγνοεί απρόβλεπτες λεπτομέρειες όπως η κίνηση μεμονωμένων φύλλων σε ένα δέντρο και εστιάζει σε έννοιες υψηλού επιπέδου όπως το δέντρο, ο άνεμος και η εποχή. Μαθαίνοντας να προβλέπει πώς αυτές οι καταστάσεις υψηλού επιπέδου αλλάζουν με την πάροδο του χρόνου, η Τεχνητή Νοημοσύνη μαθαίνει τη δομή του κόσμου και όχι τις λεπτομέρειες σε επιφανειακό επίπεδο.

Από την Πρόβλεψη στην Προσομοίωση

Ήδη βλέπουμε τις πρώτες εικόνες αυτής της μετάβασης στα μοντέλα δημιουργίας βίντεο. Όταν η OpenAI κυκλοφόρησε το Sora, το περιέγραψε όχι απλώς ως εργαλείο βίντεο, αλλά ως «προσομοιωτής κόσμου. "

Αυτή η διάκριση είναι ζωτικής σημασίας. Μια τυπική γεννήτρια βίντεο θα μπορούσε να δημιουργήσει ένα βίντεο ενός ατόμου που περπατάει προβλέποντας ποια χρωματιστά pixel συνήθως τοποθετούνται το ένα δίπλα στο άλλο. Ένας προσομοιωτής κόσμου, ωστόσο, προσπαθεί να διατηρήσει την τρισδιάστατη συνοχή, τον φωτισμό και τη μονιμότητα των αντικειμένων με την πάροδο του χρόνου. «Καταλαβαίνει» ότι αν το άτομο περπατήσει πίσω από έναν τοίχο, δεν θα πρέπει να εξαφανιστεί από την ύπαρξη.

Ενώ τα τρέχοντα μοντέλα βίντεο απέχουν ακόμη πολύ από το να είναι τέλεια, αντιπροσωπεύουν το νέο πεδίο εκπαίδευσης. Ο φυσικός κόσμος περιέχει σημαντικά περισσότερες πληροφορίες από τον κόσμο των κειμένων. Ένα μόνο δευτερόλεπτο βίντεο περιέχει εκατομμύρια οπτικά δεδομένα σχετικά με τη φυσική, το φως και την αλληλεπίδραση. Εκπαιδεύοντας μοντέλα σε αυτήν την οπτική πραγματικότητα, μπορούμε να διδάξουμε στην Τεχνητή Νοημοσύνη την «κοινή λογική» που λείπει σήμερα από τους LLM.

Αυτό δημιουργεί έναν νέο νόμο κλιμάκωσης. Η επιτυχία δεν θα μετριέται πλέον με βάση το πόσα τρισεκατομμύρια διακριτικά έχει διαβάσει ένα μοντέλο. Θα μετριέται από την πιστότητα της προσομοίωσής του και την ικανότητά του να προβλέπει μελλοντικές καταστάσεις του περιβάλλοντος. Μια Τεχνητή Νοημοσύνη που μπορεί να προσομοιώσει με ακρίβεια τις συνέπειες μιας ενέργειας χωρίς να χρειάζεται να προβεί σε αυτήν την ενέργεια είναι μια Τεχνητή Νοημοσύνη που μπορεί να σχεδιάσει, να συλλογιστεί και να ενεργήσει με ασφάλεια.

Αποδοτικότητα και η πορεία προς την Τεχνητή Νοημοσύνη (AGI)

Αυτή η μετατόπιση αντιμετωπίζει επίσης το μη βιώσιμο ενεργειακό κόστος της τρέχουσας Τεχνητής Νοημοσύνης. Τα LLM είναι αναποτελεσματικά επειδή πρέπει να προβλέπουν κάθε λεπτομέρεια για να παράγουν ένα συνεκτικό αποτέλεσμα. Ένα Παγκόσμιο Μοντέλο είναι πιο αποτελεσματικό επειδή είναι επιλεκτικό. Ακριβώς όπως ένας άνθρωπος-οδηγός εστιάζει στον δρόμο και αγνοεί το μοτίβο των σύννεφων στον ουρανό, ένα Παγκόσμιο Μοντέλο εστιάζει στους σχετικούς αιτιώδεις παράγοντες μιας εργασίας.

Ο LeCun υποστήριξε ότι αυτή η προσέγγιση επιτρέπει στα μοντέλα να μαθαίνουν πολύ πιο γρήγορα. Ένα σύστημα όπως V-JEPA (Video-Joint Embedding Predictive Architecture) έχει δείξει ότι μπορεί να συγκλίνει σε μια λύση με πολύ λιγότερες επαναλήψεις εκπαίδευσης από τις παραδοσιακές μεθόδους. Μαθαίνοντας το «σχήμα» των δεδομένων αντί να απομνημονεύουν τα ίδια τα δεδομένα, τα Παγκόσμια Μοντέλα δημιουργούν μια πιο ισχυρή μορφή νοημοσύνης που γενικεύει καλύτερα σε νέες, αθέατες καταστάσεις.

Αυτός είναι ο κρίκος που λείπει για την Τεχνητή Νοημοσύνη (AGI). Η αληθινή νοημοσύνη απαιτεί πλοήγηση. Απαιτεί από έναν πράκτορα να εξετάσει έναν στόχο, να προσομοιώσει διαφορετικές διαδρομές για την επίτευξη αυτού του στόχου χρησιμοποιώντας το εσωτερικό του μοντέλο για τον κόσμο και στη συνέχεια να επιλέξει τη διαδρομή με την υψηλότερη πιθανότητα επιτυχίας. Οι γεννήτριες κειμένου δεν μπορούν να το κάνουν αυτό. Μπορούν μόνο να γράψουν ένα σχέδιο, δεν μπορούν να κατανοήσουν τους περιορισμούς της εκτέλεσης του.

Η κατώτατη γραμμή

Η βιομηχανία της Τεχνητής Νοημοσύνης βρίσκεται σε ένα σημείο καμπής. Η στρατηγική του «απλώς προσθέστε περισσότερα δεδομένα» φτάνει στο λογικό της τέλος. Μεταβαίνουμε από την εποχή του Chatbot στην εποχή του Προσομοιωτή.

Η επόμενη γενιά κλιμάκωσης της Τεχνητής Νοημοσύνης δεν θα αφορά την ανάγνωση ολόκληρου του διαδικτύου. Θα αφορά την παρατήρηση του κόσμου, την κατανόηση των κανόνων του και την οικοδόμηση μιας εσωτερικής αρχιτεκτονικής που αντικατοπτρίζει την πραγματικότητα. Δεν πρόκειται απλώς για μια τεχνική αναβάθμιση. Είναι μια θεμελιώδης αλλαγή σε αυτό που θεωρούμε «μάθηση».

Για τις επιχειρήσεις και τους ερευνητές, η εστίαση πρέπει να αλλάξει. Πρέπει να σταματήσουμε να ασχολούμαστε με τον αριθμό των παραμέτρων και να αρχίσουμε να αξιολογούμε πόσο καλά κατανοούν τα συστήματά μας την αιτία και το αποτέλεσμα. Η Τεχνητή Νοημοσύνη του μέλλοντος δεν θα σας λέει απλώς τι συνέβη. Θα σας δείξει τι θα μπορούσε να συμβεί και γιατί. Αυτή είναι η υπόσχεση των Παγκόσμιων Μοντέλων και είναι ο μόνος δρόμος προς τα εμπρός.

Ο Δρ. Tehseen Zia είναι Αναπληρωτής Καθηγητής στο Πανεπιστήμιο COMSATS του Ισλαμαμπάντ, κάτοχος διδακτορικού τίτλου στην τεχνητή νοημοσύνη από το Τεχνολογικό Πανεπιστήμιο της Βιέννης, στην Αυστρία. Με ειδίκευση στην Τεχνητή Νοημοσύνη, τη Μηχανική Μάθηση, την Επιστήμη των Δεδομένων και την Όραση Υπολογιστών, έχει κάνει σημαντικές συνεισφορές με δημοσιεύσεις σε έγκριτα επιστημονικά περιοδικά. Ο Δρ. Tehseen έχει επίσης ηγηθεί διαφόρων βιομηχανικών έργων ως Κύριος Ερευνητής και υπηρέτησε ως Σύμβουλος AI.