Τεχνητή νοημοσύνη

Πόσο καλά είναι τα πράκτορες AI στην πραγματική έρευνα; Μέσα στο αναλυτικό rapport του Deep Research Bench

Published June 2, 2025

Updated April 26, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Καθώς οι μεγάλες γλώσσες μοντέλα (LLMs) εξελίσσονται γρήγορα, così και η υπόσχεσή τους ως ισχυροί βοηθοί έρευνας. Όλο και περισσότερο, δεν απαντούν μόνο σε απλές ερωτήσεις γεγονότων – αντιμετωπίζουν “βαθιά έρευνα” εργασίες, οι οποίες περιλαμβάνουν πολλαπλά βήματα συλλογισμού, αξιολόγηση αντικρουόμενης πληροφόρησης, πηγή δεδομένων από όλο το διαδίκτυο και συνθέτοντας τα σε एक συνεκτικό αποτέλεσμα.

Αυτή η εξελισσόμενη ικανότητα τώρα πωλείται με διαφορετικά ονόματα εμπορικών σημάτων από μεγάλα εργαστήρια – το OpenAI το ονομάζει “Βαθιά Έρευνα”, το Anthropic το αναφέρεται ως “Εκτεταμένη Σκέψη”, το Gemini της Google προσφέρει χαρακτηριστικά “Αναζήτηση + Pro” και το Perplexity το etiquete ως “Προηγμένη Αναζήτηση” ή “Βαθιά Έρευνα”. Maar πόσο αποτελεσματικά είναι αυτά τα προϊόντα στην πράξη; Μια νέα αναφορά από το FutureSearch, με τίτλο Deep Research Bench (DRB): Αξιολόγηση των Πρακτόρων Έρευνας του Ιστού, προσφέρει την πιο αυστηρή αξιολόγηση μέχρι σήμερα – και τα αποτελέσματα αποκαλύπτουν τόσο εντυπωσιακές ικανότητες όσο και κρίσιμες ελλείψεις.

Τι είναι το Deep Research Bench;

Δημιουργημένο από την ομάδα του FutureSearch, το Deep Research Bench είναι ένα προσεκτικά κατασκευασμένο βENCHMARK σχεδιασμένο για να αξιολογήσει την απόδοση των πρακτόρων AI σε εργασίες έρευνας πολλαπλών βημάτων, βασισμένων στο διαδίκτυο. Αυτές δεν είναι απλές ερωτήσεις με σαφείς απαντήσεις – αντανακλούν τις ακατάστατες, ανοιχτές προκλήσεις που αντιμετωπίζουν οι αναλυτές, οι υπεύθυνοι λήψης αποφάσεων και οι ερευνητές σε πραγματικές συνθήκες.

Το βENCHMARK περιλαμβάνει 89 διαφορετικές εργασίες σε 8 κατηγορίες, όπως:

Βρείτε Αριθμό: π.χ. “Πόσες ανακλησεις ιατρικών συσκευών κατηγορίας II της FDA συνέβησαν;”
Επιβεβαιώστε Δήλωση: π.χ. “Είναι το ChatGPT 10 φορές πιο ενεργοβόρο από την αναζήτηση της Google;”
Συγκεντρώστε Δεδομένα: π.χ. “Τάσεις εργασίας για τους προγραμματιστές λογισμικού στις ΗΠΑ από το 2019-2023”

Κάθε τύπος εργασίας είναι προσεκτικά δομημένος με ανθρώπινες επικυρωμένες απαντήσεις και αξιολογείται χρησιμοποιώντας ένα παγωμένο σύνολο σελίδων ιστού, γνωστό ως RetroSearch. Αυτό εξασφαλίζει τη συν nhấtότητα σε όλες τις αξιολογήσεις μοντέλων, αποφεύγοντας την αλλαγή της ζωντανιας του ζωντανού ιστού.

Η Αρχιτεκτονική του Πράκτορα: ReAct και RetroSearch

Στην καρδιά του Deep Research Bench βρίσκεται η αρχιτεκτονική ReAct, συντομογραφία του “Σκέψη + Δράση”. Αυτή η μέθοδος μιμείται τον τρόπο με τον οποίο ένας ανθρώπινος ερευνητής μπορεί να αντιμετωπίσει ένα πρόβλημα – σκέφτοντας το πρόβλημα, εκτελώντας μια ενέργεια όπως μια αναζήτηση στο διαδίκτυο, παρατηρώντας τα αποτελέσματα και στη συνέχεια αποφασίζοντας αν θα επαναλάβει ή θα ολοκληρώσει.

Ενώ τα παλαιότερα μοντέλα ακολουθούν αυτό το κύκλο ρητά, τα νεότερα “σκέφτη” μοντέλα συχνά ροκανίζουν τη διαδικασία, ενσωματώνοντας τη σκέψη πιο ρευστά στις ενέργειές τους. Για να εξασφαλιστεί η συν nhấtότητα σε όλες τις αξιολογήσεις, το DRB εισάγει το RetroSearch – μια στατική, ειδικά κατασκευασμένη εκδοχή του διαδικτύου. Αντί να βασίζονται στο ζωντανό διαδίκτυο, το οποίο αλλάζει συνεχώς, οι πράκτορες συνδέονται με ένα επιλεγμένο αρχείο σελίδων ιστού, χρησιμοποιώντας εργαλεία όπως το Serper, Playwright και ScraperAPI. Η κλίμακα είναι εντυπωσιακή: για εργασίες υψηλής πολυπλοκότητας, όπως “Συγκεντρώστε Αποδεικτικά”, το RetroSearch μπορεί να παρέχει πρόσβαση σε περισσότερες από 189.000 σελίδες, όλες παγωμένες στο χρόνο, εξασφαλίζοντας ένα δίκαιο και αναπαραγώγιμο περιβάλλον δοκιμών.

Ποιος Πράκτορας AI Εκτελεί Καλύτερα;

Μεταξύ όλων των συμμετεχόντων, το o3 της OpenAI αναδείχθηκε ως ο κορυφαίος εκτελεστής, σκοράροντας 0,51 από τα возможных 1,0 στο Deep Research Bench. Αν και αυτό μπορεί να φανεί μετριοπαθές, είναι σημαντικό να κατανοηθεί η δυσκολία του βENCHMARK: λόγω αμφιβολίας στις ορισμούς των εργασιών και της βαθμολογίας, ακόμη και ένας άψογος πράκτορας θα μπορούσε πιθανότατα να φτάσει μέχρι το 0,8 – αυτό που οι ερευνητές ονομάζουν “όριο θορύβου”. Με άλλα λόγια, ακόμη και τα καλύτερα μοντέλα σήμερα παραμένουν πίσω από τους ενημερωμένους, μεθοδικούς ανθρώπινους ερευνητές.

Ωστόσο, το leaderboard προσφέρει αποκαλυπτικές εντυπώσεις. Το o3 όχι μόνο ηγήθηκε του πακέτου, αλλά το έκανε με ταχύτητα και συν nhấtότητα, δείχνοντας ισχυρή απόδοση σε σχεδόν όλους τους τύπους εργασιών. Το Claude 3.7 Sonnet από το Anthropic ακολούθησε στενά, δείχνοντας ευελιξία και στις “σκέφτη” και “μη σκέφτη” λειτουργίες. Το Gemini 2.5 Pro, το μοντέλο της Google, ξεχώρισε για την ικανότητά του να χειρίζεται εργασίες που απαιτούν δομημένη σχεδιασμό και βήμα προς βήμα συλλογισμό. Εν τω μεταξύ, το ανοικτό μοντέλο DeepSeek-R1 παρέσχε μια ευχάριστη έκπληξη – κρατώντας το ρυθμό με το GPT-4 Turbo και στενεύοντας το χάσμα απόδοσης μεταξύ ανοικτών και κλειστών μοντέλων.

Σε όλο το πλάτος, ένα σαφές μοτίβο εμφανίστηκε: τα νεότερα, “σκέφτη” μοντέλα υπερέβησαν συνεχώς τους προηγούμενους ομολόγους τους, και τα κλειστά μοντέλα διατήρησαν μια αξιοσημείωτη υπεροχή έναντι των ανοικτών εναλλακτικών.

Πού Οι Πράκτορες Αγωνίζονται;

Διαβάζοντας τα μοτίβα αποτυχίας που υπογραμμίζονται στην αναφορά του Deep Research Bench felt आशχαρακτικά οικεία. Ένα από τα πιο ενοχλητικά πράγματα που έχω προσωπικά συναντήσει – ιδιαίτερα κατά τη διάρκεια μακρών ή σύνθετων συνεδριών έρευνας ή δημιουργίας περιεχομένου – είναι όταν ένας πράκτορας AI απλά ξεχνάει τι κάναμε. Όσο το παράθυρο контекστού εκτείνεται, το μοντέλο συχνά αρχίζει να χάνει το νήμα: κρίσιμες λεπτομέρειες εξαφανίζονται, οι στόχοι μπερδεύονται και τα απαντήματα αρχίζουν να φαίνονται αποσυνδεδεμένα ή άσκοπα. Σε κάποιο σημείο, έχω μάθει ότι είναι συχνά καλύτερο να κόψω τις απώλειες και να ξεκινήσω από την αρχή, ακόμη και αν αυτό σημαίνει να απορρίψω όλα όσα έχουν παραχθεί μέχρι τώρα.

Αυτή η λήθη δεν είναι απλά ανεκδοτική – είναι ο σημαντικότερος προβλέψιμος παράγοντας αποτυχίας στην αξιολόγηση του Deep Research Bench. Maar δεν είναι το μόνο επαναλαμβανόμενο ζήτημα. Η αναφορά επίσης υπογραμμίζει πώς κάποια μοντέλα πέφτουν σε επαναλαμβανόμενη χρήση εργαλείων, εκτελώντας την ίδια αναζήτηση ξανά και ξανά σαν να ήταν κολλημένα σε ένα κύκλο. Άλλα δείχνουν κακή κατασκευή ερωτήσεων, απλά ταιριάζοντας λέξεις-κλειδιά αντί να σκέφτονται κριτικά πώς να αναζητήσουν αποτελεσματικά. Και πολύ συχνά, οι πράκτορες πέφτουν θύματα πρόωρων συμπερασμάτων – παρέχοντας μια ημιτελή απάντηση που τεχνικά ελέγχει το κουτί, αλλά παραμένει πίσω από την πραγματική έρευνα.

Ακόμη και μεταξύ των κορυφαίων μοντέλων, οι διαφορές είναι δραματικές. Το GPT-4 Turbo, για παράδειγμα, έδειξε μια αξιοσημείωτη τάση να ξεχνά προηγούμενα βήματα, ενώ το DeepSeek-R1 ήταν πιο πιθανό να οραματίσει ή να εφεύρει πιθανές-ηχητικές, αλλά λανθασμένες, πληροφορίες. Σε όλο το πλάτος, τα μοντέλα συχνά απέτυχαν να ελέγξουν πηγές ή να επικυρώσουν ευρήματα πριν από την ολοκλήρωση της εξόδου. Για όποιον έχει βασιστεί σε AI για σοβαρή δουλειά, αυτά τα ζητήματα θα φαίνονται πολύ οικεία – και υπογραμμίζουν πόσο ακόμη πρέπει να προχωρήσουμε στην κατασκευή πρακτόρων που μπορούν πραγματικά να σκέφτονται και να ερευνήσουν σαν άνθρωποι.

Τι Γίνεται Με Την Απόδοση Βασισμένη στη Μνήμη;

Ενδιαφέροντα, το Deep Research Bench αξιολόγησε επίσης τι ονομάζει “απάνθρωπους” πράκτορες – γλωσσικά μοντέλα που λειτουργούν χωρίς πρόσβαση σε εξωτερικά εργαλεία, όπως αναζήτηση ιστού ή ανάκτηση εγγράφων. Αυτοί οι πράκτορες βασίζονται αποκλειστικά στα εσωτερικά δεδομένα εκπαίδευσης και στη μνήμη, παράγοντας απαντήσεις με βάση μόνο αυτά που έχουν μάθει κατά τη διάρκεια της εκπαίδευσης. Στην πράξη, αυτό σημαίνει ότι δεν μπορούν να ψάξουν τίποτα ή να επικυρώσουν πληροφορίες – είναι μια догασία με βάση αυτό που “θυμάται”.

Εξαιρετικά, αυτοί οι απάνθρωποι πράκτορες εκτέλεσαν σχεδόν τόσο καλά όσο και οι πλήρεις πράκτορες έρευνας σε ορισμένες εργασίες. Για παράδειγμα, στην εργασία Επιβεβαιώστε Δήλωση – όπου ο στόχος είναι να αξιολογήσετε την πιθανότητα μιας δήλωσης – σκοράροντας 0,61, σχεδόν ισάξιο με το 0,62 μέσο όρο των εργαλείων-πρακτόρων. Αυτό υποδηλώνει ότι μοντέλα όπως το o3 και το Claude έχουν ισχυρά εσωτερικά προκαταλήψιμα και μπορούν συχνά να αναγνωρίσουν την αλήθεια δήλωσεων χωρίς να χρειάζεται να αναζητήσουν στο διαδίκτυο.

Αλλά σε πιο απαιτητικές εργασίες – όπως η Παράγωγη Αριθμού, η οποία απαιτεί τη σύνθεση πολλαπλών τιμών από διάφορες πηγές, ή η Συγκέντρωση Αποδεικτικών, η οποία εξαρτάται από την εύρεση και την αξιολόγηση διαφόρων γεγονότων σε контέκστ – αυτά τα απάνθρωπα μοντέλα αποσυνθέθηκαν完全. Χωρίς φρέσκα δεδομένα ή δυνατότητες αναζήτησης σε πραγματικό χρόνο, απλά έλλειψαν τα μέσα για να παράγουν ακριβείς ή ολοκληρωμένες απαντήσεις.

Αυτή η αντίθεση υπογραμμίζει μια σημαντική νюάνς: ενώ τα σημερινά LLMs μπορούν να μιμούνται “γνώση” πολλά, η βαθιά έρευνα εξαρτάται όχι μόνο από την ανάκληση, αλλά και από τη σκέψη με ενημερωμένες, επικυρωμένες πληροφορίες – κάτι που μόνο οι πράκτορες με εργαλεία μπορούν πραγματικά να παρασχεθούν.

Τελικές Σκέψεις

Η αναφορά του DRB κάνει σαφές ότι ενώ τα καλύτερα μοντέλα AI σήμερα μπορούν να ξεπεράσουν τους μέσους ανθρώπους σε στενά ορισμένες εργασίες, παραμένουν πίσω από τους ικανούς γενικούς ερευνητές – ιδιαίτερα όταν πρόκειται για στρατηγική σχεδιασμό, προσαρμογή κατά τη διάρκεια της διαδικασίας και σκέψη με νюάνς.

Αυτό το χάσμα γίνεται ιδιαίτερα εμφανές κατά τη διάρκεια μακρών ή σύνθετων συνεδριών – κάτι που έχω βιώσει προσωπικά, όπου ένας πράκτορας σταδιακά χάνει το σκοπό της εργασίας, οδηγώντας σε μια απογοητευτική διάλυση της συνεκτικότητας και της χρησιμότητας.

Τι κάνει το Deep Research Bench τόσο πολύτιμο είναι ότι δεν δοκιμάζει μόνο την επιφανειακή γνώση – διεισδύει στη συμβολή της χρήσης εργαλείων, της μνήμης, της σκέψης και της προσαρμογής, προσφέροντας ένα πιο κοντινό ανάλογο στην πραγματική έρευνα από βENCHMARKS όπως το MMLU ή το GSM8k.

Καθώς τα LLMs συνεχίζουν να ενσωματώνουν στη σοβαρή εργασία γνώσεων, τα εργαλεία του FutureSearch όπως το DRB θα είναι απαραίτητα για την αξιολόγηση όχι μόνο αυτών που γνωρίζουν αυτά τα συστήματα, αλλά και πώς λειτουργούν πραγματικά.

Related Topics:benchmark FutureSearch LLM

Antoine Tardif, CEO & Founder of Unite.AI

Ο Antoine είναι ένας οραματιστής ηγέτης και συνιδρυτής του Unite.AI, οδηγείται από μια αμετάβλητη страсть για το σχήμα και την προώθηση του μέλλοντος του AI και της ρομποτικής. Ένας σειριακός επιχειρηματίας, πιστεύει ότι το AI θα είναι τόσο διαταρακτικό για την κοινωνία όσο η ηλεκτρική ενέργεια, και συχνά πιάνεται να μιλάει για το δυναμικό των διαταρακτικών τεχνολογιών και του AGI.

Ως futurist, είναι αφοσιωμένος στο να εξερευνήσει πώς αυτές οι καινοτομίες θα σχήματίσουν τον κόσμο μας. Επιπλέον, είναι ο ιδρυτής του Securities.io, μια πλατφόρμα που επικεντρώνεται στις επενδύσεις σε τεχνολογίες που αναedefinουν το μέλλον και ανασχήματίσουν ολόκληρους τομείς.