Συνδεθείτε μαζί μας

Οι ελλείψεις του Amazon Mechanical Turk μπορεί να απειλήσουν τα συστήματα παραγωγής φυσικής γλώσσας

Τεχνητή νοημοσύνη

Οι ελλείψεις του Amazon Mechanical Turk μπορεί να απειλήσουν τα συστήματα παραγωγής φυσικής γλώσσας

mm

Μια νέα μελέτη από το Πανεπιστήμιο της Μασαχουσέτης Άμχερστ έβαλε τους καθηγητές Αγγλικών εναντίον των εργαζομένων που χρησιμοποιούν crowdsource Αμαζόν Μηχανολόγος Τούρκος στην αξιολόγηση της παραγωγής της Δημιουργίας Φυσικής Γλώσσας (NLG) συστήματα, καταλήγοντας στο συμπέρασμα ότι τα χαλαρά πρότυπα και το «παιχνίδι» πολύτιμων εργασιών μεταξύ των εργαζομένων της AMT θα μπορούσαν να εμποδίσουν την ανάπτυξη του κλάδου.

Η έκθεση καταλήγει σε ορισμένα καταδικαστικά συμπεράσματα σχετικά με τον βαθμό στον οποίο η φθηνή εξωτερική ανάθεση εργασιών αξιολόγησης NLG σε «βιομηχανική κλίμακα» θα μπορούσε να οδηγήσει σε κατώτερα αποτελέσματα και αλγόριθμους σε αυτόν τον τομέα.

Οι ερευνητές συνέταξαν επίσης μια λίστα με 45 εργασίες σχετικά με τη δημιουργία ανοιχτού κειμένου όπου η έρευνα είχε χρησιμοποιήσει το AMT και διαπίστωσαν ότι η «συντριπτική πλειοψηφία» απέτυχε να αναφέρει κρίσιμες λεπτομέρειες σχετικά με τη χρήση της υπηρεσίας πλήθους της Amazon, καθιστώντας δύσκολη την αναπαραγωγή τα ευρήματα των εφημερίδων.

Sweat-Shop Labor

Η έκθεση ασκεί κριτική τόσο για τη φύση του Amazon Mechanical Turk, όσο και για τα (πιθανώς περιορισμένα στον προϋπολογισμό) ακαδημαϊκά έργα που προσδίδουν στην AMT πρόσθετη αξιοπιστία χρησιμοποιώντας (και αναφέροντάς την) ως έγκυρη και συνεπή ερευνητική πηγή. Οι συγγραφείς σημειώνουν:

«Ενώ το AMT είναι μια βολική και προσιτή λύση, παρατηρούμε ότι η υψηλή διακύμανση μεταξύ των εργαζομένων, η κακή βαθμονόμηση και οι γνωστικά απαιτητικές εργασίες μπορούν να οδηγήσουν τους ερευνητές σε παραπλανητικά επιστημονικά συμπεράσματα (π.χ. ότι το κείμενο που έχει γραφτεί από ανθρώπους είναι «χειρότερο» από το GPT-2 ).'

Η έκθεση κατηγορεί το παιχνίδι και όχι τους παίκτες, με τους ερευνητές να παρατηρούν:

«Οι εργαζόμενοι στο πλήθος συχνά αμείβονται ελάχιστα για την εργασία τους, γεγονός που βλάπτει τόσο την ποιότητα της έρευνας όσο και το πιο σημαντικό, την ικανότητα αυτών των εργαζομένων στο πλήθος να κερδίζουν επαρκώς τα προς το ζην.

The χαρτί, Με τίτλο Οι κίνδυνοι της χρήσης Mechanical Turk για την αξιολόγηση της δημιουργίας ανοιχτού κειμένου, καταλήγει περαιτέρω στο συμπέρασμα ότι οι «ειδικοί αξιολογητές», όπως καθηγητές ξένων γλωσσών και γλωσσολόγοι, θα πρέπει να χρησιμοποιούνται για την αξιολόγηση του ανοιχτού τεχνητού περιεχομένου NLG, ακόμη και αν το AMT είναι φθηνότερο.

Εργασίες δοκιμής

Συγκρίνοντας την απόδοση της AMT με λιγότερο περιορισμένους χρόνους, ειδικούς αναγνώστες, οι ερευνητές ξόδεψαν 144 $ για τις υπηρεσίες AMT που χρησιμοποιήθηκαν πραγματικά στις δοκιμές σύγκρισης (αν και πολύ περισσότερα ξοδεύτηκαν για «μη χρησιμοποιήσιμα» αποτελέσματα - βλέπε παρακάτω), απαιτώντας τυχαίους «Τούρκους» να αξιολογήσει ένα από τα 200 κείμενα, χωρισμένα μεταξύ περιεχομένου κειμένου που δημιουργήθηκε από τον άνθρωπο και κειμένου που δημιουργήθηκε τεχνητά.

Η εκτέλεση εργασιών σε επαγγελματίες δασκάλους με την ίδια εργασία κοστίζει 187.50 $ και η επιβεβαίωση της ανώτερης απόδοσής τους (σε σύγκριση με τους εργαζομένους AMT) με την πρόσληψη ελεύθερων επαγγελματιών της Upwork για την αναπαραγωγή των εργασιών κοστίζει επιπλέον 262.50 $.

Κάθε εργασία αποτελούνταν από τέσσερα κριτήρια αξιολόγησης: γραμματική ("Πόσο γραμματικά σωστό είναι το κείμενο του αποσπάσματος της ιστορίας;") συνοχή ("Πόσο καλά ταιριάζουν οι προτάσεις στο κομμάτι της ιστορίας;") συμπαθητικοτητα («Πόσο απολαυστικό σας φαίνεται το κομμάτι της ιστορίας;») και συνάφεια ("Πόσο σχετικό είναι το απόσπασμα της ιστορίας με την προτροπή;").

Δημιουργία των κειμένων

Για να αποκτήσουν υλικό NLG για τις δοκιμές, οι ερευνητές χρησιμοποίησαν το Facebook AI Research's 2018 Ιεραρχική Νευρωνική Γενιά Ιστορίας σύνολο δεδομένων, το οποίο περιλαμβάνει 303,358 ιστορίες στην αγγλική γλώσσα που συντέθηκαν από χρήστες στο πολύ δημοφιλές (15 εκατομμύρια χρήστες+) r/προτροπές εγγραφής subreddit, όπου οι ιστορίες των συνδρομητών «σπορεύονται» από «προτροπές» μιας πρότασης με παρόμοιο τρόπο με τις τρέχουσες πρακτικές στο δημιουργία κειμένου σε εικόνα – και, φυσικά, στο open-ended Natural Language Generation συστήματα.

200 προτροπές από το σύνολο δεδομένων επιλέχθηκαν τυχαία και πέρασαν από ένα μεσαίου μεγέθους μοντέλο GPT-2 χρησιμοποιώντας τους μετασχηματιστές Hugging-Face βιβλιοθήκη. Έτσι, δύο σύνολα αποτελεσμάτων λήφθηκαν από τις ίδιες προτροπές: τα ανθρώπινα γραπτά δοκίμια λόγου από χρήστες του Reddit και τα κείμενα που δημιουργήθηκαν από το GPT-2.

Για να μην κρίνουν οι ίδιοι εργαζόμενοι της AMT την ίδια ιστορία πολλές φορές, ζητήθηκαν τρεις κρίσεις εργαζομένων AMT ανά παράδειγμα. Μαζί με τα πειράματα σχετικά με τις ικανότητες της αγγλικής γλώσσας των εργαζομένων (βλ. τέλος του άρθρου) και τα μειωμένα αποτελέσματα από εργαζομένους χαμηλής προσπάθειας (βλ. «Σύντομο χρονικό διάστημα» παρακάτω), αυτό αύξησε τη συνολική δαπάνη για AMT σε περίπου 1,500 $ USD.

Για να δημιουργηθούν ίσοι όροι ανταγωνισμού, όλες οι δοκιμές πραγματοποιήθηκαν καθημερινές μεταξύ 11.00 π.μ.-11 π.μ. PST.

Αποτελέσματα και συμπεράσματα

Η εκτεταμένη μελέτη καλύπτει πολύ έδαφος, αλλά τα βασικά σημεία είναι τα εξής:

Σύντομο χρονικό διάστημα

Η εφημερίδα διαπίστωσε ότι ένας επίσημος χρόνος εργασίας που ανέφερε η Amazon, κατά μέσο όρο 360 δευτερολέπτων, συμπυκνώθηκε σε πραγματικό χρόνο εργασίας μόλις 22 δευτερολέπτων και ένας διάμεσος χρόνος εργασίας μόνο 13 δευτερόλεπτα – το ένα τέταρτο του χρόνου που παίρνει το ταχύτερα Δάσκαλος Αγγλικών που αναπαράγει την εργασία.

Από την Ημέρα 2 της μελέτης: οι μεμονωμένοι εργαζόμενοι (με πορτοκαλί) ξόδεψαν σημαντικά λιγότερο χρόνο για την αξιολόγηση κάθε εργασίας από τους καλύτερα αμειβόμενους δάσκαλους και (αργότερα) οι ακόμη καλύτερα αμειβόμενοι εργολάβοι της Upwork. Πηγή: https://arxiv.org/pdf/2109.06835.pdf

Από την Ημέρα 2 της μελέτης: οι μεμονωμένοι εργαζόμενοι (με πορτοκαλί) ξόδεψαν σημαντικά λιγότερο χρόνο για να αξιολογήσουν κάθε εργασία από τους καλύτερα αμειβόμενους δάσκαλους και (αργότερα) οι ακόμη καλύτερα αμειβόμενοι εργολάβοι της Upwork. Πηγή: https://arxiv.org/pdf/2109.06835.pdf

Δεδομένου ότι το AMT δεν επιβάλλει κανένα όριο στις Εργασίες Ανθρώπινης Νοημοσύνης (HIT) που μπορεί να αναλάβει ένας μεμονωμένος εργαζόμενος, έχουν εμφανιστεί οι «μεγάλοι χτυπητές» της AMT, με (κερδοφόρα) φήμη για την ολοκλήρωση μεγάλου αριθμού εργασιών ανά πείραμα. Προκειμένου να αντισταθμίσουν τις αποδεκτές επισκέψεις από τον ίδιο εργαζόμενο, οι ερευνητές μέτρησαν το χρόνο μεταξύ των διαδοχικών υποβληθέντων HIT, συγκρίνοντας την ώρα έναρξης και λήξης κάθε HIT. Με αυτόν τον τρόπο, αναφέρθηκε το έλλειμμα μεταξύ των AMT Ώρα εργασίας σε δευτερόλεπτα και ο πραγματικός χρόνος που δαπανήθηκε για την εργασία ήρθε στο επίκεντρο.

Δεδομένου ότι μια τέτοια εργασία δεν μπορεί να επιτευχθεί σε αυτά τα μειωμένα χρονικά πλαίσια, οι ερευνητές έπρεπε να αντισταθμίσουν αυτό:

«Καθώς είναι αδύνατο να διαβάσετε προσεκτικά μια ιστορία μήκους παραγράφου και να αξιολογήσετε και τις τέσσερις ιδιότητες σε μόλις 13 δευτερόλεπτα, μετράμε τον αντίκτυπο στις μέσες βαθμολογίες κατά το φιλτράρισμα των εργαζομένων που ξοδεύουν πολύ λίγο χρόνο ανά HIT… Συγκεκριμένα, αφαιρούμε τις κρίσεις από εργαζομένων των οποίων ο διάμεσος χρόνος είναι κάτω από 40 δευτερόλεπτα (που είναι χαμηλός πήχης) και διαπιστώνουν ότι κατά μέσο όρο περίπου το 42% των αξιολογήσεών μας είναι φιλτραρισμένο (που κυμαίνονται από 20%-72% σε όλα τα πειράματα).

Το έγγραφο υποστηρίζει ότι η εσφαλμένη αναφορά του πραγματικού χρόνου εργασίας στο AMT είναι «ένα σημαντικό ζήτημα» που συνήθως αγνοείται από τους ερευνητές που χρησιμοποιούν τις υπηρεσίες.

Απαραίτητο κράτημα στο χέρι

Τα ευρήματα υποδηλώνουν περαιτέρω ότι οι εργαζόμενοι της AMT δεν μπορούν να διακρίνουν αξιόπιστα μεταξύ κειμένου γραμμένου από άνθρωπο και κειμένου γραμμένου από μηχανή, εκτός και αν δουν και τα δύο κείμενα δίπλα-δίπλα, κάτι που θα έθετε σε κίνδυνο ένα τυπικό σενάριο αξιολόγησης (όπου ο αναγνώστης θα πρέπει να είναι σε θέση να Κάντε μια κρίση με βάση ένα μόνο δείγμα κειμένου, «πραγματικό» ή τεχνητά δημιουργημένο).

Περιστασιακή αποδοχή τεχνητού κειμένου χαμηλής ποιότητας

Οι εργαζόμενοι του AMT βαθμολόγησαν σταθερά το τεχνητό κείμενο χαμηλής ποιότητας που βασίζεται σε GPT σε ισοδύναμο με υψηλότερης ποιότητας, συνεκτικό κείμενο γραμμένο από ανθρώπους, σε αντίθεση με τους καθηγητές αγγλικών, οι οποίοι ήταν εύκολα σε θέση να διακρίνουν τη διαφορά στην ποιότητα.

Χωρίς χρόνο προετοιμασίας, μηδενικό πλαίσιο

Η εισαγωγή της σωστής νοοτροπίας για μια τόσο αφηρημένη εργασία όπως η αξιολόγηση της αυθεντικότητας δεν προκύπτει φυσικά. Οι καθηγητές Αγγλικών χρειάστηκαν 20 εργασίες για να βαθμονομήσουν τις ευαισθησίες τους στο περιβάλλον αξιολόγησης, ενώ οι εργαζόμενοι στο AMT συνήθως δεν λαμβάνουν καθόλου «χρόνο προσανατολισμού», μειώνοντας την ποιότητα της εισήγησής τους.

Gaming The System

Η έκθεση υποστηρίζει ότι ο συνολικός χρόνος που αφιερώνουν οι εργαζόμενοι AMT σε μεμονωμένες εργασίες διογκώνεται από εργαζόμενους που δέχονται πολλές εργασίες ταυτόχρονα και εκτελούν τις εργασίες σε διαφορετικές καρτέλες στα προγράμματα περιήγησής τους, αντί να επικεντρώνονται σε μία εργασία για την καταγεγραμμένη διάρκεια εργασίας.

Η χώρα προέλευσης είναι σημαντική

Οι προεπιλεγμένες ρυθμίσεις του AMT δεν φιλτράρουν τους εργαζόμενους ανά χώρα προέλευσης και σημειώνει η αναφορά προηγούμενη εργασία υποδεικνύοντας ότι οι εργαζόμενοι της AMT χρησιμοποιούν VPN για να επιλύσουν γεωγραφικούς περιορισμούς, επιτρέποντας στους μη γηγενείς ομιλητές να παρουσιάζονται ως φυσικοί ομιλητές της Αγγλικής γλώσσας (σε ένα σύστημα που, ίσως μάλλον αφελώς, εξισώνει τη μητρική γλώσσα ενός εργαζομένου με τη γεωγραφική του θέση που βασίζεται σε IP).

Έτσι, οι ερευνητές επανέλαβαν τα τεστ αξιολόγησης στο AMT με φίλτρα που περιορίζουν τους πιθανούς χρήστες όχι-Αγγλόφωνες χώρες, διαπιστώνοντας αυτό «οι εργαζόμενοι από μη αγγλόφωνες χώρες βαθμολόγησαν τη συνοχή, τη συνάφεια και τη γραμματική… σημαντικά χαμηλότερα από τους ίδιους εργαζόμενους από αγγλόφωνες χώρες».

Η έκθεση καταλήγει:

«Οι [ειδικοί] βαθμολογητές, όπως γλωσσολόγοι ή καθηγητές ξένων γλωσσών, θα πρέπει να χρησιμοποιούνται όποτε είναι δυνατόν, καθώς έχουν ήδη εκπαιδευτεί στην αξιολόγηση γραπτού κειμένου και δεν είναι πολύ πιο ακριβό…».

 

Δημοσιεύθηκε στις 16 Σεπτεμβρίου 2021 - Ενημερώθηκε 18 Δεκεμβρίου 2021: Προστέθηκαν ετικέτες

Συγγραφέας στη μηχανική μάθηση, ειδικός τομέα στη σύνθεση ανθρώπινης εικόνας. Πρώην επικεφαλής ερευνητικού περιεχομένου στο Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επαφή: [προστασία μέσω email]
Twitter: @manders_ai