Ηγέτες σκέψης
Πώς να κατασκευάσετε ένα Αξιόπιστο RAG: Ένα Βαθύ Βούτι στο 7 Σημεία Αποτυχίας και Πλαίσια Αξιολόγησης
Retrieval-Augmented Generation (RAG) είναι κρίσιμο για τη σύγχρονη αρχιτεκτονική του AI, λειτουργώντας ως ένα απαραίτητο πλαίσιο για την κατασκευή πραγμάτων που είναι συνείδητοι του контекστού.
Αλλά η μετάβαση από ένα βασικό πρωτότυπο σε ένα σύστημα που είναι έτοιμο για παραγωγή περιλαμβάνει την πλοήγηση σημαντικών εμποδίων στη λήψη δεδομένων, την ενοποίηση του контекστού και την σύνθεση της απόκρισης.
Αυτό το άρθρο παρέχει μια βαθιά εμβάθυνση στα επτά τυπικά σημεία αποτυχίας του RAG και τα μέτρα αξιολόγησης με πρακτικά παραδείγματα κωδικών.
Η Ανατομία της Αποτυχίας του RAG – 7 Σημεία Αποτυχίας (FPs)
Σύμφωνα με τους ερευνητές Barnett et al., συστήματα Retrieval Augmented Generation (RAG) αντιμετωπίζουν επτά συγκεκριμένα Σημεία Αποτυχίας (FPs) καθ’ όλη τη διάρκεια του πλήγματος.
Το παρακάτω διάγραμμα εικονογραφεί αυτές τις φάσεις:

Σχήμα A. Διεργασίες ευρετηρίου και ερωτημάτων που απαιτούνται για τη δημιουργία ενός συστήματος RAG. Η διεργασία ευρετηρίου πραγματοποιείται κατά τη διάρκεια της ανάπτυξης και τα ερωτήματα κατά τη διάρκεια της εκτέλεσης. Τα σημεία αποτυχίας που έχουν αναγνωριστεί σε αυτή τη μελέτη εμφανίζονται σε κόκκινες коробές (πηγή)
Ας εξετάσουμε κάθε FP που έχει διατεταγμένο σύμφωνα με την ακολουθία του πλήγματος, ακολουθώντας την προοδευτική κίνηση από την πάνω αριστερή προς την κάτω δεξιά που εμφανίζεται στο Σχήμα A.
FP1. Λείπων Περιεχόμενο
Το λείπων περιεχόμενο συμβαίνει όταν το σύστημα ζητείται μια ερώτηση που δεν μπορεί να απαντηθεί επειδή οι σχετικές πληροφορίες δεν υπάρχουν στο διαθέσιμο vector store από την αρχή.
Η αποτυχία συμβαίνει όταν ένα LLM παρέχει μια πιθανή αλλά λανθασμένη απάντηση αντί να δηλώσει δεν ξέρει.
FP2. Χάθηκε το Top-Ranked Έγγραφο
Αυτή είναι μια κατάσταση όπου ένα σωστό έγγραφο υπάρχει στο vector store, αλλά ο retriever αποτυγχάνει να το κατατάξει αρκετά ψηλά για να το περιλαμβάνει στα top-k έγγραφα που παρέχονται σε ένα LLM ως контекστού.
Ως αποτέλεσμα, η σωστή πληροφορία ποτέ δεν φτάνει στο LLM.
FP3. Όχι στο Κонтέκστο (Περιορισμοί Στρατηγικής Ενοποίησης)
Αυτή είναι μια κατάσταση όπου ένα σωστό έγγραφο υπάρχει και ανακτάται από το vector store, αλλά αποκλείεται κατά τη διάρκεια της ενοποίησης.
Αυτό συμβαίνει όταν πολλά έγγραφα επιστρέφονται και το σύστημα πρέπει να τα φιλτράρει για να ταιριάζουν μέσα σε ένα παράθυρο контекστού του LLM, όρια token ή όρια ρυθμού.
FP4. Δεν Εξαγώγηση
Αυτή είναι μια κατάσταση όπου ένα LLM αποτυγχάνει να αναγνωρίσει τη σωστή πληροφορία στο контέκστο, ακόμη και αν η σωστή πληροφορία ήταν στο vector store και ανακτάται/ενοποιείται επιτυχώς.
Αυτό συμβαίνει όταν ο контέκστούς είναι υπερβολικά θορυβώδης ή περιέχει αντίθετες πληροφορίες που μπερδεύουν το LLM.
FP5. Λάθος Μορφή
Αυτή είναι μια κατάσταση όπου η αποθήκευση, η ανάκτηση, η ενοποίηση και η ερμηνεία του LLM χειρίζονται επιτυχώς, αλλά το LLM αποτυγχάνει να ακολουθήσει συγκεκριμένες οδηγίες μορφής που παρέχονται στην προτροπή, όπως ένα πίνακα, μια ετικέτα ή ένα σχήμα JSON.
FP6. Λανθασμένη Ειδικότητα
Η έξοδος του LLM είναι τεχνικά παρόν, αλλά είτε πολύ γενική είτε πολύ σύνθετη σε σύγκριση με τις ανάγκες του χρήστη.
Για παράδειγμα, ένα LLM γεννά απλές απαντήσεις σε μια ερώτηση του χρήστη με ένα σύνθετο επαγγελματικό στόχο.
FP7. Ατελή Απαντήσεις
Αυτή είναι μια κατάσταση όπου ένα LLM γεννά μια έξοδο που δεν είναι απαραίτητα λανθασμένη, αλλά λείπει κρίσιμα κομμάτια πληροφοριών που ήταν διαθέσιμα στο контέκστο.
Για παράδειγμα, όταν ένας χρήστης ζητά μια σύνθετη ερώτηση όπως “Ποια είναι τα κύρια σημεία στα έγγραφα A, B και C;”, το LLM απευθύνεται μόνο σε ένα ή δύο από τις πηγές.
Πώς τα FPs Επηρεάζουν την Απόδοση του Πλήγματος RAG
Κάθε ένα από αυτά τα FPs επηρεάζει την απόδοση του πλήγματος RAG:
ΕνTEGRITY & Trust Failures
Όταν λείπουν ή λανθασμένες πληροφορίες είναι παρόντες, το σύστημα δεν είναι πλέον một αξιόπιστη πηγή πληροφοριών. Πρωτεύοντα FPs περιλαμβάνουν:
- FP1 (Λείπων Περιεχόμενο): Η απάντηση δεν είναι στο έγγραφο από την αρχή.
- FP4 (Δεν Εξαγώγηση): Το LLM αποφασίζει να αγνοήσει τη σωστή απάντηση στο έγγραφο.
- FP7 (Ατελή): Το LLM δίνει ημι-αλήθειες, λείπουν σημαντικά κομμάτια.
Λήψη & Αποτελεσματικότητα Bottlenecks
Το πλήγμα RAG μπορεί να είναι αναποτελεσματικό όταν χάνει κρίσιμες πληροφορίες στη λήψη και την ενοποίηση. Πρωτεύοντα FPs περιλαμβάνουν:
- FP2 (Χάθηκε το Top-Ranked): Το μοντέλο εμβέδωσης αποτυγχάνει να επιλέξει τα top-k εμβέδωσης.
- FP3 (Στρατηγική Ενοποίησης): Το σενάριο για να κοψτεί το έγγραφο για να ταιριάζει στα όρια του LLM σβήνει τα πιο σημαντικά μέρη.
Χρήστης Εμπειρία & Σφάλματα Μορφής
Αν και σωστή, μια έξοδος με κακή αναγνωσιμότητα ή σε λανθασμένη μορφή μπορεί να επηρεάσει την εμπειρία του χρήστη. Πρωτεύοντα FPs περιλαμβάνουν:
- FP5 (Λάθος Μορφή): Το LLM αποτυγχάνει να ακολουθήσει τη συγκεκριμένη μορφή εξόδου όπως JSON.
- FP6 (Λανθασμένη Ειδικότητα): Το LLM γεννά μια εκτεταμένη έξοδο για μια απλή ναι/όχι ερώτηση, ή αντίστροφα (πολύ σύντομη απάντηση σε μια σύνθετη ερώτηση).
Το Πλαίσιο Αξιολόγησης: Πλαίσια για την Επίλυση των FPs
Τα μέτρα αξιολόγησης σχεδιάζονται για να μειώσουν συστηματικά αυτά τα FPs.
Αυτή η ενότητα εξετάζει τα κύρια μέτρα αξιολόγησης με πρακτικά παραδείγματα.
Κύρια Μέτρα Αξιολόγησης RAG:
- DeepEval
- RAGAS
- TruLens
- Arize Phoenix
- Braintrust
DeepEval – Ο Μονόλιθος Πριν από την Αναπτύξη
DeepEval υπολογίζει ένα σταθμικό σκορ με βάση τα κριτήρια.
Ένας LLM-as-a-judge (π.χ. GPT-4o) αξιολογεί κάθε κριτήριο ενάντια στην έξοδο του LLM:

DeepEval αξιοποιεί G-eval, ένα πλαίσιο chain-of-thought (CoT) που λαμβάνει μια πολλαπλή προσεγγιστική για την αξιολόγηση της έξοδου:
- Ορίστε ένα κριτήριο για μέτρηση (π.χ. “συνέπεια”, “ρευστότητα” ή “π pertinence”).
- Γεννήστε βήματα αξιολόγησης (χρησιμοποιώντας ένα LLM αξιολογητή).
- Ακολουθήστε το βήμα αξιολόγησης και αναλύστε την είσοδο και την έξοδο του LLM.
- Υπολογίστε ένα αναμενόμενο σταθμικό άθροισμα του σκορ κάθε κριτηρίου.
Κοινή Περίπτωση στην Πράξη
- Κατάσταση: Ένας βοηθός τεχνικής τεκμηρίωσης (βοτ) για ένα σύνθετο προϊόν λογισμικού φαίνεται να λειτουργεί κάθε φορά που η ομάδα μηχανικών ενημερώνει την βάση κώδικα.
- Πρόβλημα: Δεν υπάρχει ποσοτική απόδειξη αν ο βοηθός μπορεί ακόμα να απαντήσει στην ερώτηση του χρήστη (Απλά “πιστεύετε” ότι λειτουργεί…).
- Λύση: Ενοποιήστε μια συνάρτηση PyTest ως σύνολο αναδρομής CI/CD στο Github Action όπου DeepEval τρέχει
G-Evalκαι άλλα μέτρα πάνω σε ένα σετ δοκιμών:
- Αναμενόμενα αποτελέσματα: Αν το σκορ οποιουδήποτε μετρήματος πέσει κάτω από το όριο (0,85), η PyTest ανεβάζει
AssertionError– αμέσως αποτυγχάνει την κατασκευή CI, αποτρέποντας τη σιωπηρή αναδρομή από το να φτάσει στην παραγωγή.
Πλεονεκτήματα και μειονεκτήματα
- Μια ποικιλία μετρήσεων (50+) συμπεριλαμβανομένων ειδικών ελέγχων προκατάληψης και τοξικότητας είναι διαθέσιμα.
- Ενοποιούνται άψογα με τις υπάρχουσες διαδικασίες CI/CD.
- Δεν χρειάζεται αναφορά. Αξιολογήστε μια έξοδο με βάση μόνο την προτροπή και το παρεχόμενο контέκστο.
- Η ποιότητα της αξιολόγησης εξαρτάται nặng από τις ικανότητες του LLM κριτή.
- Εξοικονόμηση υπολογιστικών πόρων όταν ο κριτής LLM είναι ένα υψηλό μοντέλο.
Σημείωση Ανάπτυξης – Η Περίπτωση Δοκιμής για DeepEval
Ένα σύνολοLLMTestCaseαντικειμένων ορίζει την περίπτωση δοκιμής που DeepEval τρέχει.Στην πράξη, αυτή η περίπτωση δοκιμής πρέπει να περιλαμβάνει τις πιο σημαντικές ερωτήσεις του χρήστη και τις ετικετες εξόδου με το ανακτημένο контέκστο.
Αυτά μπορούν να ανακτηθούν από ένα αρχείο JSON ή CSV.
RAGAS – Το Βελόνι στη Στρώση του Χαλβά
Αξιολόγηση Retrieval Augmented Generation (Ragas) αποσκοπεί στην αξιολόγηση του RAG χωρίς ανθρώπινη ετικετούμενη βάση δεδομένων δημιουργώντας συνθετικά σετ δοκιμών.
Στη συνέχεια, υπολογίζει τα σημαδιακά μέτρα:

Σχήμα B. Το τριάδιο αξιολόγησης RAGAS που συνδέει Ερώτηση, Κонтέκστο και Απάντηση μέσω μετρήσεων Precision, Recall, Faithfulness και Relevancy (Δημιουργήθηκε από Kuriko IWAI)
Τα σημαδιακά μέτρα κατηγοριοποιούνται σε τρεις ομάδες:
- Πλήγμα λήψης (μαύρο, στερεό γραμμή, Σχήμα B): Precision του контέκστο, recall του контέκστο.
- Πλήγμα γεννήτριας (μαύρο, στιγμιαίο γραμμή, Σχήμα B): Faithfulness, relevancy της απάντησης.
- Γραφείο αλήθειας (κόκκινη коробή, Σχήμα B): Ομοιότητα σημασιολογικής απάντησης, ορθότητα απάντησης.
Κοινή Περίπτωση στην Πράξη
- Κατάσταση: Το σύστημα RAG για νομικές συμβάσεις λείπει κρίσιμα κlausules. Δεν είστε βέβαιοι αν το πρόβλημα είναι στην Αναζήτηση (Retriever) ή την Ανάγνωση (Γεννήτρια).
- Πρόβλημα: Δεν υπάρχει ιδέα για το βέλτιστο top-k (αριθμός chunk που ανακτώνται).
- Λύση: Χρησιμοποιήστε RAGAS για να δημιουργήσετε ένα συνθετικό σετ δοκιμών με 100 ζευγάρια ερωτήσεων και αποδείξεων. Στη συνέχεια, τρέξτε το πλήγμα RAG ενάντια στο σετ δοκιμών για να υπολογίσετε το recall και την precision του контέκστο:
- Αναμενόμενο αποτέλεσμα: Ανεξάρτητα από τα αποτελέσματα του μετρήματος, το σχέδιο δράσης μπορεί να είναι το ακόλουθο:
| Μέτρο | Σκορ | Διαγνωστική | Σχέδιο Δράσης |
| Recall του Κонтέκστο | Χαμηλό | Ο retriever έχασε την σωστή πληροφορία. | – Αυξήστε το top-k. – Δοκιμάστε υβριδική αναζήτηση (BM25 + Vector). |
| Precision του Κонтέκστο | Χαμηλό | Τα top-k chunk περιέχουν πολύ θόρυβο και φίλτρο – μπερδεύοντας το LLM. | – Μειώστε το top-k – Εφαρμόστε einen Reranker (π.χ. Cohere). |
| Faithfulness | Χαμηλό | Η γεννήτρια hallucinates παρά την ύπαρξη δεδομένων. | – Προσαρμόστε το σύστημα προτροπής. – Ελέγξτε για όρια παραθύρου контέκστού. |
Πίνακας 1. Πίνακας Δράσης RAGAS – Χαρτογράφηση Σκορ σε Ρυθμίσεις Συστήματος.
Πλεονεκτήματα και μειονεκτήματα
- Εξαιρετικό για ένα πρώιμο στάδιο έργου χωρίς ground-true datasets (Όπως είδαμε στο απόσπασμα κώδικα, RAGAS μπορεί να δημιουργήσει ένα συνθετικό σετ δοκιμών).
- Το συνθετικό σετ δοκιμών μπορεί να λείψει νουμερικές фактические λάθη.
- Απαιτεί ένα ρομπούστ εξαγωγέα μοντέλο για να σπάσει τις απαντήσεις σε μεμονωμένα claims (Χρησιμοποίησα
gpt-4oστο παράδειγμα).
TruLens – Ο Ειδικός του Βρόχου Ανατροφοδότησης
TruLens εστιάζει στα εσωτερικά μηχανικά του πλήγματος RAG χρησιμοποιώντας συναρτήσεις ανατροφοδότησης.
Χρησιμοποιεί επίσης ένα LLM-βασισμένο σκορ που αντανακλά πώς καλά η απάντηση ικανοποιεί την πρόθεση της ερώτησης, χρησιμοποιώντας μια 4-σημειακή κλίμακα Likert (0-3), καθιστώντας το ανώτερο για κατάταξη της ποιότητας των διαφορετικών αποτελεσμάτων αναζήτησης.
Κοινή Περίπτωση στην Πράξη
- Κατάσταση: Ένας βοηθός ιατρικής απαντάει σε μια ερώτηση του χρήστη σωστά αλλά προσθέτει μια προτροπή που δεν είναι στο έγκριτο PDF.
- Πρόβλημα: Η προτροπή μπορεί να είναι χρήσιμη, αλλά δεν είναι εδραιωμένη.
- Λύση: Χρησιμοποιήστε TruLens για να εφαρμόσετε μια συνάρτηση ανατροφοδότησης εδραιωμένης με ένα όριο όπως
score > 0.8.
- Αναμενόμενα αποτελέσματα: Όταν το LLM γεννά μια απάντηση που περιέχει πληροφορίες που δεν υπάρχουν στο ανακτημένο chunk, TruLens σημαδεύει το ρεκόρ στο πίνακα σας.
Πλεονεκτήματα και μειονεκτήματα
- Εικονίζει την αλυσίδα συλλογισμού για να αναγνωρίσετε ακριβώς πού ο πράκτορας έφυγε από το δρόμο.
- Παρέχει ενσωματωμένη υποστήριξη για εδραιωμένη για να πιάσει hallucinations σε πραγματικό χρόνο.
- Κλίση μάθησης για τον ορισμό των προσαρμοσμένων συναρτήσεων ανατροφοδότησης.
- Ο πίνακας μπορεί να φανεί βαρύς για απλά σενάρια.
Arize Phoenix – Το Χάρτης Σιωπηρής Αποτυχίας
Arize Phoenix είναι ένα ανοιχτό σύστημα παρατηρησιμότητας και αξιολόγησης για να αξιολογήσει τις εξόδους LLM, συμπεριλαμβανομένων των σύνθετων συστημάτων RAG.
Χτισμένο στο OpenTelemetry από Arize AI, εστιάζει στην παρατηρησιμότητα αντιμετωπίζοντας την αξιολόγηση LLM ως υποσύνολο του MLOps.
Στο контέκστο της αξιολόγησης RAG, Phoenix excels στο ανάλυση εμβέδωσης, χρησιμοποιώντας Uniform Manifold Approximation and Projection (UMAP) για να μειώσει υψηλοδιάστατες εμβέδωσης διανυσμάτων σε 2D/3D χώρο.
Αυτή η ανάλυση εμβέδωσης αποκαλύπτει μαθηματικά αν οι αποτυχημένες ερωτήσεις είναι ομαδοποιημένες σε μια ομάδα, που δείχνει ένα κενό στη βάση δεδομένων διανυσμάτων.
Κοινή Περίπτωση στην Πράξη
- Κατάσταση: Ένας βοηθός υποστήριξης πελατών λειτουργεί καλά για επιστροφές, αλλά δίνει ανοησίες για απαιτήσεις εγγύησης.
- Πρόβλημα: Κενό δεδομένων στη βάση δεδομένων διανυσμάτων (Δεν μπορείτε να το βρείτε στα logs).
- Λύση: Χρησιμοποιήστε Arize Phoenix για να δημιουργήσετε μια οπτική αναπαράσταση Umap Embedding (UEV), ένα 3D χάρτη για τη βάση δεδομένων διανυσμάτων – για να επικάλυψη ερωτήσεων του χρήστη στα chunk εγγράφων.
- Αναμενόμενα αποτελέσματα: Οπτικά δείτε μια ομάδα ερωτήσεων του χρήστη που προσγειώνονται στη ζώνη σκότους όπου δεν υπάρχουν έγγραφα, λέγοντάς σας ότι κάποια έγγραφα λείπουν από τη βάση δεδομένων διανυσμάτων.
Πλεονεκτήματα και μειονεκτήματα
- OpenTelemetry-φιλικό· ενοποιείται με τις υπάρχουσες επιχειρηματικές στοίβες παρατηρησιμότητας.
- Το καλύτερο εργαλείο για την οπτικοποίηση των τυφλών σημείων της βάσης δεδομένων διανυσμάτων.
- Λιγότερο επικεντρωμένο στη βαθμολογία, περισσότερο στην παρατήρηση.
- Μπορεί να είναι υπερβολικό για μικρόμεγέθη εφαρμογές ή εργαλεία μεμονωμένου πράκτορα.
Braintrust – Το Δίκτυο Ασφαλείας της Προτροπής
Braintrust σχεδιάζεται για κύκλους υψηλής συχνότητας με την χρήση συγκριτικής ανάλυσης μοντέλων.
Κοινή Περίπτωση στην Πράξη
- Κατάσταση: Μια ομάδα μηχανικών αναβαθμίζει την προτροπή από “Απαντήστε στην ερώτηση” (Περίπτωση A) σε μια πιο σύνθετη 500-λέξη οδηγία συστήματος (Περίπτωση B).
- Πρόβλημα: Η βελτίωση της προτροπής για την Περίπτωση B μπορεί να σπάσει την Περίπτωση A.
- Λύση: Χρησιμοποιήστε Braintrust για να δημιουργήσετε ένα χρυσό σετ δεδομένων με ένα σύνολο N τέλειων παραδειγμάτων (π.χ.
N = 50). Αφήστε το Braintrust να τρέξει πλάι-πλάι (SxS) σύγκριση κάθε φορά που η ομάδα αναβαθμίζει μια単η λέξη στην προτροπή:
- Αναμενόμενα αποτελέσματα: Ένα αναφορά διαφοράς που δείχνει ακριβώς ποια περιπτώσεις verbesserten/worsened για κάθε ένα από το χρυσό σετ δεδομένων (N = 50).
Πλεονεκτήματα και μειονεκτήματα
- Εξαιρετικά γρήγορο για δοκιμή πριν από την ανάπτυξη.
- Μεγάλο UI για μη τεχνικούς μετόχους για να αναθεωρήσουν και βαθμολογήσουν την έξοδο.
- Ιδιοκτησιακό/SaaS-εστιασμένο (αν και έχουν ανοιχτό κώδικα συστατικά).
- Λιγότερα ενσωματωμένα βαθιά τεχνολογικά μέτρα σε σύγκριση με DeepEval ή Ragas.
Συμπέρασμα
Όταν χειρίζονται με σωστά πλαίσια αξιολόγησης, το RAG μπορεί να είναι ένα ανταγωνιστικό εργαλείο για να παρέχει ένα LLM контέκστο που είναι πιο σχετικό με την ερώτηση του χρήστη.
Στρατηγική Υλοποίησης: Χαρτογράφηση Μετρήσεων σε Σημεία Αποτυχίας
Αν και δεν υπάρχει μια λύση που ταιριάζει σε όλα, ο Πίνακας 2 δείχνει ποια μέτρα αξιολόγησης να εφαρμόσετε για κάθε FP που καλύψαμε σε αυτό το άρθρο:
| Σημείο Αποτυχίας | Ιδέα Μέτρου Αξιολόγησης | Χαρακτηριστικό για Χρήση |
| FP1: Λείπων Περιεχόμενο | RAGAS | Faithfulness / Ορθότητα Απάντησης |
| FP2: Χάθηκε το Top-Ranked | TruLens | Recall του Κонтέκστο / Precision |
| FP3: Ενοποίηση | Arize Phoenix | Αναζήτηση Ιχνηλάτη και Ανάλυση Καθυστέρησης |
| FP4: Δεν Εξαγώγηση | DeepEval | Faithfulness / Ανακληση Κонтέκστο |
| FP5: Λάθος Μορφή | DeepEval | G-Eval (Προσαρμοσμένο Ρουμπρίκ) |
| FP6: Ειδικότητα | Braintrust | Χειροκίνητη Βαθμολογία & Πλάι-πλάι Αξιολόγηση |
| FP7: Ατελή | RAGAS | Relevancy της Απάντησης |
Πίνακας 2. Η Ματρική Επίλυσης Σημείων Αποτυχίας – Ποιο Εργαλείο Λύνει Ποιο FP;
DeepEval και RAGAS μπορούν να αξιοποιήσουν τα μέτρα faithfulness για να μετρήσουν αποτυχίες ακεραιότητας δεδομένων (FP1, FP4, FP7).
TruLens αξιοποιεί την precision και recall του контέκστο για να μετρήσει την σχετικότητα του контέκστο με την έξοδο – αποτελεσματικά αξιολογώντας FP2.
Arize Phoenix παρέχει μια οπτική αναπαράσταση της διαδικασίας λήψης, καθιστώντας εύκολη την ανίχνευση αν το έγγραφο που ανακτήθηκε χάθηκε κατά τη διάρκεια της ενοποίησης (FP3).
Για αποτυχίες εμπειρίας χρήστη, DeepEval δημιουργεί προσαρμοσμένα μέτρα για να αξιολογήσει τις αποτυχίες εμπειρίας χρήστη, ενώ Braintrust excels στο σύγκριση του συνόλου δεδομένων ground-truth.












