Τεχνητή νοημοσύνη

Τα Ελαττώματα του Amazon Mechanical Turk Μπορεί να Απειλούν τα Συστήματα Γεννήτριας Φυσικής Γλώσσας

Published September 16, 2021

Updated April 28, 2026

Martin Anderson

Μια νέα μελέτη από το Πανεπιστήμιο του Μασαχουσέττης στο Άμχερστ έχει αντιπαραθέσει δασκάλους αγγλικής γλώσσας με εργαζόμενους σε crowdsourcing στο Amazon Mechanical Turk στην αξιολόγηση της έξοδου των Συστημάτων Γεννήτριας Φυσικής Γλώσσας (NLG), καταλήγοντας στο συμπέρασμα ότι οι χαλαρές προδιαγραφές και το “παίγνιο” των επευρεθέντων εργασιών μεταξύ των εργαζομένων του AMT μπορεί να εμποδίζουν την ανάπτυξη του τομέα.

Η μελέτη καταλήγει σε μια σειρά από καταδικαστικές συμπεράσματα σχετικά με το βαθμό στον οποίο η “βιομηχανικής κλίμακας” φθηνή εξαγωγή ανοιχτών εργασιών αξιολόγησης NLG μπορεί να οδηγήσει σε κατώτερα αποτελέσματα και αλγόριθμους σε αυτόν τον τομέα.

Οι ερευνητές συνέταξαν επίσης μια λίστα με 45 εργασίες για την ανοιχτή γεννήτρια κειμένου όπου η έρευνα είχε χρησιμοποιήσει το AMT, και βρήκαν ότι “η πλειοψηφία” δεν ανέφερε κρίσιμες λεπτομέρειες σχετικά με τη χρήση της υπηρεσίας crowd του Amazon, καθιστώντας δύσκολο να αναπαράγουν τα ευρήματα των εργασιών.

Εργασία σε Συνθήκες Sweat-Shop

Η μελέτη επιτίθεται τόσο στη φύση sweat-shop του Amazon Mechanical Turk, όσο και στα (πιθανότατα περιορισμένα από το προϋπολογισμό) ακαδημαϊκά έργα που δίνουν στο AMT πρόσθετη αξιοπιστία χρησιμοποιώντας (και αναφέροντας) το ως έγκυρο και συνεπές ερευνητικό εργαλείο. Οι συγγραφείς σημειώνουν:

‘Ενώ το AMT είναι μια βολική και προσιτή λύση, παρατηρούμε ότι η υψηλή διακύμανση μεταξύ των εργαζομένων, η κακή βαθμονόμηση και οι εργασίες που απαιτούν σκέψη possono οδηγήσουν τους ερευνητές σε παραπλανητικά επιστημονικά συμπεράσματα (π.χ., ότι ο κείμενος γραμμένος από άνθρωπο είναι “χειρότερος” από το GPT-2′).’

Η μελέτη κατηγορεί το σύστημα και όχι τους παίκτες, με τους ερευνητές να παρατηρούν:

‘Οι εργαζόμενοι σε crowdsourcing συχνά υποαποζητούνται για την εργασία τους, το οποίο βλάπτει τόσο την ποιότητα της έρευνας, όσο και, το πιο σημαντικό, την ικανότητα αυτών των εργαζομένων να κερδίζουν ένα επαρκές εισόδημα.’

Το έγγραφο, με τίτλο Οι Κίνδυνοι της Χρήσης του Mechanical Turk για την Αξιολόγηση Ανοιχτής Γεννήτριας Κειμένου, καταλήγει επίσης στο συμπέρασμα ότι “ειδικοί αξιολογητές” όπως δάσκαλοι γλώσσας και γλωσσολόγοι πρέπει να χρησιμοποιηθούν για την αξιολόγηση ανοιχτής τεχνητής NLG περιεχομένου, ακόμη και αν το AMT είναι φθηνότερο.

Δοκιμαστικές Εργασίες

Συγκρίνοντας την απόδοση του AMT με λιγότερο χρονικά περιορισμένους, εξειδικευμένους αναγνώστες, οι ερευνητές δαπάνησαν 144 δολάρια για τις υπηρεσίες του AMT που χρησιμοποιήθηκαν πραγματικά στις δοκιμαστικές εργασίες (αν και πολύ περισσότερα δαπανήθηκαν για “μη χρησιμοποιήσιμα” αποτελέσματα – δείτε παρακάτω), απαιτώντας από τυχαίους “Τούρκους” να αξιολογήσουν ένα από τα 200 κείμενα, χωρισμένα μεταξύ ανθρώπινου περιεχομένου και τεχνητά γεννημένων κειμένων.

Η ανάθεση εργασιών σε επαγγελματίες δασκάλους με την ίδια εργασία κόστισε 187,50 δολάρια, και επιβεβαίωσε την ανώτερη απόδοσή τους (σε σύγκριση με τους εργαζόμενους του AMT) με την πρόσληψη ελευθέρων επαγγελματιών από το Upwork για να αναπαράγουν τις εργασίες κόστισε επιπλέον 262,50 δολάρια.

Κάθε εργασία αποτελούσε από τέσσερις κριτήρια αξιολόγησης: γραμματική (‘Πόσο γραμματικά σωστός είναι ο κείμενος της ιστορίας;); συνάφεια (‘Πόσο καλά ταιριάζουν οι προτάσεις της ιστορίας;); ευχαρίστηση (‘Πόσο απολαυστικός είναι ο κείμενος;); και σχετικότητα (‘Πόσο σχετικός είναι ο κείμενος με την πρόκληση;).

Γεννήτρια Κειμένου

Για να ληφθούν NLG υλικά για τις δοκιμές, οι ερευνητές χρησιμοποίησαν το dataset Ιεραρχική Γεννήτρια Ιστοριών του 2018 από το Facebook AI Research, το οποίο αποτελείται από 303.358 αγγλικές ιστορίες που συντάχθηκαν από χρήστες στο πολύ δημοφιλές (15 εκατ+ χρήστες) r/writingprompts subreddit, όπου οι ιστορίες των συνδρομητών “σπείρονται” από μονό προτάσεις “πρόκληση” με παρόμοιο τρόπο με τις τρέχουσες πρακτικές στη γεννήτρια κειμένου-εικόνας – και, φυσικά, στις ανοιχτές Φυσικές Συστήματα Γεννήτριας Γλώσσας συστήματα.

200 πρόκλησεις από το dataset επιλέχθηκαν τυχαία και περάστηκαν από ένα μεσαίου μεγέθους μοντέλο GPT-2 χρησιμοποιώντας τη βιβλιοθήκη Hugging-Face Transformers library. Έτσι, δύο σύνολα αποτελεσμάτων λήφθηκαν από τις ίδιες πρόκλησεις: τα ανθρώπινα γραπτά διστακτικά δοκίμια από χρήστες του Reddit, και GPT-2-γεννημένα κείμενα.

Για να αποτρέψουν τους ίδιους εργαζόμενους του AMT να κρίνουν την ίδια ιστορία πολλές φορές, ζητήθηκαν τρεις κρίσεις εργαζομένων του AMT ανά παράδειγμα. Μαζί με πειράματα σχετικά με τις ικανότητες της αγγλικής γλώσσας των εργαζομένων (δείτε το τέλος του άρθρου) και μείωση των αποτελεσμάτων από εργαζόμενους με χαμηλή προσπάθεια (δείτε ‘Σύντομο Χρόνο’ παρακάτω), αυτό αυξάνει το συνολικό έξοδο για το AMT σε περίπου 1.500 δολάρια.
Για να δημιουργηθεί ένας ισορροπημένος αγώνας, όλες οι δοκιμές διεξήχθησαν τις εργάσιμες ημέρες μεταξύ 11:00-11:30 π.μ. PST.

Αποτελέσματα και Συμπεράσματα

Η εκτεταμένη μελέτη καλύπτει πολύ έδαφος, αλλά τα βασικά σημεία είναι τα ακόλουθα:

Σύντομος Χρόνος

Το έγγραφο βρήκε ότι ο μέσος όρος χρόνος εργασίας του Amazon που αναφέρεται σε 360 δευτερόλεπτα κατέβηκε σε πραγματικό χρόνο εργασίας μόλις 22 δευτερόλεπτα, και μέσο χρόνο εργασίας μόνο 13 δευτερόλεπτα – ένα τέταρτο του χρόνου που πήρε ο γρηγορότερος δάσκαλος αγγλικής γλώσσας να αναπαράγει την εργασία.

Από την 2η ημέρα της μελέτης: οι ατομικοί εργαζόμενοι (σε πορτοκαλί) δαπάνησαν σημαντικά λιγότερο χρόνο για την αξιολόγηση κάθε εργασίας από τους καλύτερα αμειβόμενους δασκάλους, και (αργότερα) τους ακόμη καλύτερα αμειβόμενους συμβασιούχους του Upwork. Source: https://arxiv.org/pdf/2109.06835.pdf

Καθώς το AMT δεν επιβάλλει κανένα όριο στα Ανθρώπινες Εργασίες Νοημοσύνης (HITs) που μπορεί να αναλάβει ένας εργαζόμενος, έχουν εμφανιστεί “μεγάλες μπαταρίες” του AMT, με (κερδοφόρες) φήμες για την ολοκλήρωση μεγάλου αριθμού εργασιών ανά πείραμα. Για να αποζημιώσουν για τις αποδεκτές HITs από τον ίδιο εργαζόμενο, οι ερευνητές μετρούσαν τον χρόνο μεταξύ συνεχόμενων HITs, συγκρίνοντας την ώρα έναρξης και λήξης κάθε HIT. Με αυτόν τον τρόπο, η έλλειψη μεταξύ του αναφερόμενου WorkTimeInSeconds του AMT και του πραγματικού χρόνου που δαπανήθηκε στην εργασία ήρθε στο φως.

Καθώς τέτοια εργασία δεν μπορεί να ολοκληρωθεί σε αυτές τις μειωμένες χρονικές περιόδους, οι ερευνητές měli να αποζημιώσουν για αυτό:

‘Είναι αδύνατο να διαβάσετε προσεκτικά ένα παραγράφου-μήκους ιστορία και να αξιολογήσετε όλες τις τέσσερις ιδιότητες σε τόσο λίγο χρόνο, ως 13 δευτερόλεπτα, μετράμε την επίδραση στο μέσο όρο των αξιολογήσεων όταν φιλτράρουμε τους εργαζόμενους που δαπάνησαν πολύ λίγο χρόνο ανά HIT…Συγκεκριμένα, αφαιρούμε τις κρίσεις από εργαζόμενους των οποίων ο μέσος χρόνος είναι κάτω από 40s (που είναι μια χαμηλή μπαριά), και βρίσκουμε ότι κατά μέσο όρο περίπου 42% των αξιολογήσεων μας φιλτράρονται (μεταξύ 20%-72% σε όλα τα πειράματα).’

Το έγγραφο υποστηρίζει ότι η αναφορά του πραγματικού χρόνου εργασίας στο AMT είναι “ένα σημαντικό ζήτημα” που συνήθως παραβλέπεται από τους ερευνητές που χρησιμοποιούν τις υπηρεσίες.

Χειρονακτική Οδήγηση Απαραίτητη

Τα ευρήματα υποδηλώνουν επίσης ότι οι εργαζόμενοι του AMT δεν μπορούν να διακρίνουν με συνέπεια μεταξύ κειμένου γραμμένου από άνθρωπο και κειμένου γραμμένου από μηχανή, εκτός αν δουν και τα δύο κείμενα πλάι-πλάι, το οποίο θα έκανε αναποτελεσματική μια τυπική σκηνή αξιολόγησης (όπου ο αναγνώστης πρέπει να μπορεί να κάνει μια κρίση με βάση ένα μόνο δείγμα κειμένου, “πραγματικό” ή τεχνητά γεννημένο).

Χαλαρή Αποδοχή Χαμηλής Ποιότητας Τεχνητού Κειμένου

Οι εργαζόμενοι του AMT αξιολόγησαν συνεχώς το χαμηλής ποιότητας τεχνητό κείμενο GPT-με βάση την ίδια κλίμακα με το υψηλότερης ποιότητας, συνεκτικό κείμενο γραμμένο από ανθρώπους, σε αντίθεση με τους δασκάλους αγγλικής γλώσσας, οι οποίοι μπορούσαν εύκολα να διακρίνουν τη διαφορά στην ποιότητα.

Καμία Προετοιμασία, Μηδέν Πλαίσιο

Η είσοδος στη σωστή στάση για μια τέτοια αφηρημένη εργασία όπως η αξιολόγηση της αυθεντικότητας δεν έρχεται φυσικά; οι δάσκαλοι αγγλικής γλώσσας χρειάζονταν 20 εργασίες για να βαθμονομήσουν τις αισθήσεις τους στο περιβάλλον αξιολόγησης, ενώ οι εργαζόμενοι του AMT συνήθως δεν λαμβάνουν “χρόνο προετοιμασίας” καθόλου, μειώνοντας την ποιότητα της εισαγωγής τους.

Παίγνιο του Συστήματος

Η μελέτη υποστηρίζει ότι ο συνολικός χρόνος που δαπανήθηκε από τους εργαζόμενους του AMT σε ατομικές εργασίες είναι φουσκωμένος από εργαζόμενους που αποδέχονται πολλές εργασίες ταυτόχρονα, και τρέχουν τις εργασίες σε διαφορετικές καρτέλες στο πρόγραμμα περιήγησης, αντί να επικεντρώνονται σε μια εργασία για τη καταγεγραμμένη διάρκεια της εργασίας.

Χώρα Προέλευσης Είναι Σημαντική

Οι προεπιλεγμένες ρυθμίσεις του AMT δεν φιλτράρουν τους εργαζόμενους με βάση τη χώρα προέλευσης, και η μελέτη σημειώνει πρότερη εργασία που υποδηλώνει ότι οι εργαζόμενοι του AMT χρησιμοποιούν VPN για να εργαστούν γύρω από γεωγραφικές περιορισμοί, επιτρέποντας σε μη μητρικές ομιλητές να παρουσιάζονται ως μητρικές αγγλικές (σε ένα σύστημα που, ίσως rather ναϊβELY, ισοδυναμεί τη γλώσσα μητρικής γλώσσας με τη γεωγραφική τοποθεσία του IP).
Η μελέτη επαναλήφθηκε τις αξιολογήσεις στο AMT με φίλτρα που περιόριζαν τους πιθανούς λήπτες σε μη-αγγλόφωνες χώρες, βρίσκοντας ότι ‘εργαζόμενοι από μη αγγλόφωνες χώρες αξιολόγησαν τη συνάφεια, τη σχετικότητα και τη γραμματική…σημαντικά χαμηλότερα από τους ομοιοκαταληπτικούς εργαζόμενους από αγγλόφωνες χώρες’.

Η μελέτη καταλήγει:

‘[Ειδικοί] αξιολογητές όπως γλωσσολόγοι ή δάσκαλοι γλώσσας πρέπει να χρησιμοποιηθούν όποτε είναι δυνατόν, επειδή έχουν ήδη εκπαιδευτεί να αξιολογούν γραπτό κείμενο, και δεν είναι πολύ πιο ακριβό…’

Δημοσιεύθηκε 16η Σεπτεμβρίου 2021 – Ενημερώθηκε 18η Δεκεμβρίου 2021: Προστέθηκαν ετικέτες