Ηγέτες σκέψης

Αποκωδικοποίηση Ευκαιριών και Προκλήσεων για Πράκτορες LLM στη Γεννητική AI

Published September 7, 2023

Updated April 4, 2026

Dattaraj Rao

Βλέπουμε μια εξέλιξη εφαρμογών Γεννητικής AI που τροφοδοτούνται από μεγάλους μοντέλους γλώσσας (LLM) από προτροπές σε αναζήτηση με ενισχυμένη γεννήτρια (RAG) και σε πράκτορες. Οι πράκτορες συζητιούνται έντονα σε βιομηχανικά και ερευνητικά κύκλους, κυρίως για τη δύναμη που παρέχει αυτή η τεχνολογία για τη μεταμόρφωση εφαρμογών Επιχειρήσεων και την παροχή υπεροχής εμπειρίας πελατών. Υπάρχουν κοινά μοτίβα για την κατασκευή πρακτόρων που επιτρέπουν τα πρώτα βήματα προς την τεχνητή γενική νοημοσύνη (AGI).

Στο προηγούμενο μου άρθρο, είδαμε μια σκάλα νοημοσύνης για μοτίβα κατασκευής εφαρμογών που τροφοδοτούνται από LLM. Ξεκινώντας με προτροπές που κατοχυρώνουν το πεδίο προβλήματος και χρησιμοποιούν την εσωτερική μνήμη του LLM για να παράγουν έξοδο. Με το RAG, ενισχύουμε την προτροπή με εξωτερικές γνώσεις που αναζητούνται από μια διανυσματική βάση δεδομένων για να ελέγξουμε τις εξόδους. Επόμενο, με την αλυσίδα κλήσεων LLM, μπορούμε να κατασκευάσουμε εργοflows για να πραγματοποιήσουμε σύνθετες εφαρμογές. Οι πράκτορες το πάνε στο επόμενο επίπεδο, αυτο-καθορίζοντας πώς αυτές οι αλυσίδες LLM θα πρέπει να σχηματιστούν. Ας δούμε λεπτομερώς.

Πράκτορες – Κάτω από το καπό

Ένα κλειδί μοτίβο με τους πράκτορες είναι ότι χρησιμοποιούν τη δύναμη κατανόησης γλώσσας του LLM για να κάνουν ένα σχέδιο για το πώς να λύσουν ένα δεδομένο πρόβλημα. Το LLM κατανοεί το πρόβλημα και μας δίνει μια ακολουθία βημάτων για να λύσουμε το πρόβλημα. Ωστόσο, δεν σταματά εκεί. Οι πράκτορες δεν είναι ένα καθαρό σύστημα υποστήριξης που θα σας παρέχει συστάσεις για την επίλυση του προβλήματος και στη συνέχεια να σας περάσει το μπαστούνι για να λάβετε τις συνιστώμενες ενέργειες. Οι πράκτορες είναι ενδυναμωμένοι με εργαλεία για να προχωρήσουν και να λάβουν δράση. Φοβερό, σωστά;

Αν σας ρωτήσουμε έναν πράκτορα μια βασική ερώτηση όπως αυτή:

Άνθρωπος: Ποια εταιρεία ξεκίνησε ο εφευρέτης του τηλεφώνου;

Ακολουθεί ένα δείγμα σκέψης βημάτων που ένας πράκτορας μπορεί να λάβει.

Πράκτορας (ΣΚΕΨΗ):

Σκέψη: Πρέπει να αναζητήσω τον εφευρέτη του τηλεφώνου.
Ενέργεια: Αναζήτηση [εφευρέτης τηλεφώνου]
Παρατήρηση: Αλεξάντερ Γκράχαμ Μπελ
Σκέψη: Πρέπει να αναζητήσω μια εταιρεία που ιδρύθηκε από τον Αλεξάντερ Γκράχαμ Μπελ
Ενέργεια: Αναζήτηση [εταιρεία ιδρυθείσα από Αλεξάντερ Γκράχαμ Μπελ]
Παρατήρηση: Ο Αλεξάντερ Γκράχαμ Μπελ συνίδρυσε την Αμερικανική Τηλεφωνική και Τηλεγραφική Εταιρεία (AT&T) το 1885
Σκέψη: Έχω βρει την απάντηση. Θα επιστρέψω.

Πράκτορας (ΑΠΑΝΤΗΣΗ): Ο Αλεξάντερ Γκράχαμ Μπελ συνίδρυσε την AT&T το 1885

Μπορείτε να δείτε ότι ο πράκτορας ακολουθεί ένα μεθοδικό τρόπο για να分解 το πρόβλημα σε υποπροβλήματα που μπορούν να λυθούν με την λήψη συγκεκριμένων ενεργειών. Οι ενέργειες εδώ συνιστώνται από το LLM και μπορούμε να τις αντιστοιχίσουμε σε συγκεκριμένα εργαλεία για να υλοποιήσουμε αυτές τις ενέργειες. Θα μπορούσαμε να ενεργοποιήσουμε ένα εργαλείο αναζήτησης για τον πράκτορα, ώστε όταν συνειδητοποιήσει ότι το LLM έχει προτείνει αναζήτηση ως ενέργεια, θα καλέσει αυτό το εργαλείο με τους παραμέτρους που παρέχονται από το LLM. Η αναζήτηση εδώ είναι στο διαδίκτυο, αλλά μπορεί επίσης να ανακατευθυνθεί για αναζήτηση σε μια εσωτερική βάση γνώσεων, όπως μια διανυσματική βάση δεδομένων. Το σύστημα τώρα γίνεται αυτοδύναμο και μπορεί να καταλάβει πώς να λύσει σύνθετα προβλήματα ακολουθώντας μια σειρά βημάτων. Πλαίσια όπως το LangChain και LLaMAIndex σας παρέχουν ένα εύκολο τρόπο για να κατασκευάσετε αυτούς τους πράκτορες και να συνδεθείτε με εργαλεία και API. Η Amazon πρόσφατα έ lançσε το πλαίσιο Bedrock Agents, το οποίο παρέχει μια οπτική διεπαφή για τον σχεδιασμό πρακτόρων.

Κάτω από το καπό, οι πράκτορες ακολουθούν ένα đặcικό στυλ για την αποστολή προτροπών στο LLM, το οποίο τους κάνει να παράγουν ένα σχέδιο δράσης. Το παραπάνω μοτίβο Σκέψης-Ενέργειας-Παρατήρησης είναι δημοφιλές σε ένα είδος πράκτορα που ονομάζεται ReAct (Λογική και Ενέργεια). Άλλα είδη πρακτόρων περιλαμβάνουν MRKL και Plan & Execute, τα οποία κυρίως διαφέρουν στο στυλ προτροπής τους.

Για πιο σύνθετους πράκτορες, οι ενέργειες μπορεί να συνδεθούν με εργαλεία που προκαλούν αλλαγές σε πηγαίες συστήματα. Για παράδειγμα, θα μπορούσαμε να συνδέσουμε τον πράκτορα με ένα εργαλείο που ελέγχει το ισορροπία αδειών και υποβάλλει αίτηση για άδεια σε ένα σύστημα ERP για έναν υπάλληλο. Τώρα θα μπορούσαμε να κατασκευάσουμε ένα ωραίο chatbot που θα αλληλεπιδρά με τους χρήστες και μέσω μιας εντολής chat θα υποβάλλει αίτηση για άδεια στο σύστημα. Không υπάρχουν πλέον σύνθετα οθόνες για την υποβολή αιτήσεων αδειών, μια απλή ενοποιημένη διεπαφή chat. Ηχηρό;

Προφυλάξεις και ανάγκη για Υπεύθυνη AI

Τώρα, τι αν έχουμε ένα εργαλείο που καλεί συναλλαγές μετοχών χρησιμοποιώντας ένα προ-εξουσιοδοτημένο API. Κατασκευάζουμε μια εφαρμογή όπου ο πράκτορας μελετά τις αλλαγές μετοχών (χρησιμοποιώντας εργαλεία) και λαμβάνει αποφάσεις για σας σχετικά με την αγορά και πώληση μετοχών. Τι αν ο πράκτορας πουλήσει την λάθος μετοχή επειδή ονειρευτήθηκε και έλαβε μια λάθος απόφαση; Επειδή τα LLM είναι τεράστια μοντέλα, είναι δύσκολο να καταλάβουμε γιατί λαμβάνουν ορισμένες αποφάσεις, επομένως οι ονειρώξεις είναι συχνές στην απουσία των κατάλληλων φραγμών.

Ενώ οι πράκτορες είναι όλα φασκινωτικά, θα μπορούσατε να έχετε καταλάβει πώς επικίνδυνοι μπορούν να είναι. Αν ονειρευτούν και λάβουν μια λάθος ενέργεια που θα μπορούσε να προκαλέσει τεράστιες οικονομικές απώλειες ή σημαντικά προβλήματα σε συστήματα Επιχειρήσεων. Επομένως, η Υπεύθυνη AI γίνεται εξαιρετικά σημαντική στην εποχή των εφαρμογών που τροφοδοτούνται από LLM. Οι αρχές της Υπεύθυνης AI γύρω από την αναπαραγωγιμότητα, τη διαφάνεια και την ευθύνη, προσπαθούν να τοποθετήσουν φραγμούς στις αποφάσεις που λαμβάνονται από τους πράκτορες και να προτείνουν ανάλυση κινδύνου για να αποφασίσουμε ποίες ενέργειες χρειάζονται έναν άνθρωπο στο βρόχο. Όσο πιο σύνθετοι πράκτορες σχεδιάζονται, χρειάζονται περισσότερη σκέψη, διαφάνεια και ευθύνη για να βεβαιωθούμε ότι ξέρουμε τι κάνουν.

Κλείσιμο σκέψεων

Η ικανότητα των πρακτόρων να παράγουν μια διαδρομή λογικών βημάτων με ενέργειες τους φέρνει πολύ κοντά στη λογική των ανθρώπων. Ενδυναμώνοντάς τους με πιο ισχυρά εργαλεία μπορεί να τους δώσει υπερδυνάμεις. Μοτίβα όπως το ReAct προσπαθούν να μιμηθούν πώς οι άνθρωποι λύνουν προβλήματα και θα δούμε καλύτερα μοτίβα πρακτόρων που θα είναι σχετικά με συγκεκριμένα контекστά και τομείς (τραπεζικό, ασφαλιστικό, υγειονομικό, βιομηχανικό, κ.λπ.). Το μέλλον είναι εδώ και η τεχνολογία πίσω από τους πράκτορες είναι έτοιμη για μας να τη χρησιμοποιήσουμε. Ταυτόχρονα, πρέπει να κρατάμε στενή προσοχή στις φραγμούς της Υπεύθυνης AI για να βεβαιωθούμε ότι δεν κατασκευάζουμε το Skynet!

Related Topics:generative ai Langchain Large Language Models LLM RAG retrieval augmented generation thought leaders

Dattaraj Rao

Ο Dattaraj Rao, Chief Data Scientist tại Persistent Systems, είναι ο συγγραφέας του βιβλίου “Keras to Kubernetes: The Journey of a Machine Learning Model to Production.” Στο Persistent Systems, ο Dattaraj ηγείται του AI Research Lab που εξερευνά state-of-the-art αλγορίθμους σε Computer Vision, Natural Language Understanding, Probabilistic programming, Reinforcement Learning, Explainable AI, κ.λπ. και αποδεικνύει την εφαρμοσιμότητά τους στα τομείς Υγείας, Τραπεζών και Βιομηχανίας. Ο Dattaraj έχει 11 διπλώματα ευρεσιτεχνίας σε Machine Learning και Computer Vision.