Τεχνητή νοημοσύνη

Δημιουργία Τεχνών Μηχανικών Turk Με Προκαταρτισμένα Μοντέλα Γλώσσας

Published December 30, 2021

Updated April 5, 2026

Martin Anderson

Ένα μεγάλο μέρος της ανάπτυξης συστημάτων μηχανικής μάθησης εξαρτάται από την επισήμανση δεδομένων, όπου εκατοντάδες, ακόμη και χιλιάδες ερωτήσεις (όπως Είναι αυτή η εικόνα μια γάτα; και Είναι αυτό το κείμενο επιθετικό;) πρέπει να επιλυθούν για να αναπτυχθούν εξουσιοδοτημένα σύνολα δεδομένων στα οποία θα εκπαιδευτούν τα συστήματα AI.

хотя όλοι συνεισφέρουμε σε αυτή τη διαδικασία σε κάποιο σημείο, η πλειονότητα αυτών των εργασιών επισήμανσης thực hiệnται για χρήματα από ανθρώπινους εργαζόμενους σε πλαισια όπως το Amazon Mechanical Turk, όπου οι αναλυτές ολοκληρώνουν μικρές εργασίες ταξινόμησης σε μια οικονομία μερισμού εργασίας.

Η ανάπτυξη μοντέλων θα ήταν φθηνότερη αν τα προκαταρτισμένα μοντέλα γλώσσας (PLMs) μπορούσαν να αναλάβουν από μόνα τους κάποιες από τις πιο βασικές Ανθρώπινες Εργασίες Νοημοσύνης (HITs) που hiện crowdsourcονται στο AMT και παρόμοια πλαισια.

Πρόσφατη έρευνα από τη Γερμανία και την Huawei προτείνει αυτό, στο έγγραφο LMTurk: Few-Shot Learners ως εργαζόμενοι crowdsourcing.

Γλώσσες Μοντέλα που Εκτελούν Few-Shot Learning

Οι συγγραφείς προτείνουν ότι τα απλούστερα στρώματα εργασιών που στοχεύουν συνήθως (ανθρώπινους) Turk εργαζόμενους είναι ανάλογα με few-shot learning, όπου ένα αυτοματοποιημένο πλαισιο πρέπει να αποφασίσει μια mini-εργασία με βάση ένα μικρό αριθμό παραδειγμάτων που δίνονται σε αυτό.

Επομένως, προτείνουν ότι τα συστήματα AI μπορούν να μάθουν αποτελεσματικά από τα υπάρχοντα PLMs που αρχικά εκπαιδεύτηκαν από crowdworkers – ότι η βασική γνώση που μεταφέρεται από τους ανθρώπους στα μηχανήματα έχει ουσιαστικά ολοκληρωθεί ήδη, και ότι όπου αυτή η γνώση είναι σχετικά αμετάβλητη ή εμπειρική με κάποιο τρόπο, τα αυτοματοποιημένα πλαισια μοντέλων γλώσσας μπορούν να εκτελέσουν αυτές τις εργασίες από μόνα τους.

‘Η βασική μας ιδέα είναι ότι, για μια εργασία NLP T, θεωρούμε τους few-shot learners ως μη-ειδικούς εργαζόμενους, που μοιάζουν με εργαζόμενους crowdsourcing που αναnotaруют πόρους για την ανθρώπινη τεχνολογία γλώσσας. Είμαστε εμπνευσμένοι από το γεγονός ότι μπορούμε να θεωρήσουμε έναν εργαζόμενο crowdsourcing ως einen τύπο few-shot learner.’

Οι επιπτώσεις περιλαμβάνουν τη δυνατότητα ότι πολλές από τις αλήθειες που τα συστήματα AI του μέλλοντος εξαρτώνται θα έχουν προέλθει από ανθρώπους κάποια χρόνια νωρίτερα, και στη συνέχεια θα έχουν θεωρηθεί ως προ-ελεγμένες και εκμεταλλεύσιμες πληροφορίες που δεν απαιτούν ανθρώπινη παρέμβαση.

Εργασίες για Μεσαίες, Ημι-εκτελεστικές Μοντέλα Γλώσσας

Εκτός από την мотίβαση να μειώσουν το κόστος των ανθρώπων-στο-βρόχο, οι ερευνητές προτείνουν ότι η χρήση ‘μεσαίων’ PLMs ως πραγματικά Mechanical Turks παρέχει χρήσιμη εργασία για αυτά τα ‘also ran’ συστήματα, τα οποία είναι ολοένα και περισσότερο υποβεβλημένα από τα επικεφαλής, υπερκλίμακα και ακριβά μοντέλα γλώσσας όπως το GPT-3, τα οποία είναι πολύ ακριβά και υπερ-προδιαγραφών για τέτοιες εργασίες.

‘Ο στόχος μας σε αυτό το έγγραφο είναι να αναπτύξουμε μεθόδους που κάνουν πιο αποτελεσματική χρήση των τρεχόντων few-shot learners. Αυτό είναι κρίσιμο επειδή ένας αυξανόμενος αριθμός γιγαντιαίων few-shot learners εκπαιδεύεται· πώς να τα χρησιμοποιήσουμε αποτελεσματικά είναι έτσι ένα σημαντικό ερώτημα. Συγκεκριμένα, θέλουμε μια εναλλακτική λύση για δύσκολα-σε-εγκαταστήσει巨αία μοντέλα.

‘Ταυτόχρονα, θέλουμε να εκμεταλλευτούμε πλήρως τις δυνάμεις των PLMs: Η ευελιξία τους εξασφαλίζει ευρεία εφαρμογή σε εργασίες· η τεράστια αποθήκη γνώσεων για τη γλώσσα και τον κόσμο (που μάθει στην προ-εκπαίδευση) φαίνεται στην αποτελεσματικότητα των few-shot learners, μειώνοντας την εργασία και τον χρόνο κατανάλωσης στη σημείωση δεδομένων.’

Μέχρι σήμερα, οι συγγραφείς υποστηρίζουν ότι οι few-shot learners στην NLP έχουν θεωρηθεί ως απορρίψιμες ενδιάμεσες στάσεις στο δρόμο προς υψηλού επιπέδου φυσική γλώσσα συστήματα που είναι πολύ πιο πόρων-εντατικά, και ότι αυτή η εργασία έχει γίνει αφηρημένα και χωρίς να ληφθεί υπόψη η πιθανή उपयσιμότητα αυτών των συστημάτων.

Μέθοδος

Οι συγγραφείς προτείνουν LMTurk (Γλώσσα Μοντέλο ως μηχανικός Turk), σε μια ροή εργασίας όπου η είσοδος από αυτό το αυτοματοποιημένο HIT παρέχει ετικέτες για ένα μεσαίο-επίπεδο NLP μοντέλο.

Ένα βασικό концептуαλικό μοντέλο για LMTurk. Source: https://arxiv.org/pdf/2112.07522.pdf

Ένα βασικό концепτουαλικό μοντέλο για LMTurk. Source: https://arxiv.org/pdf/2112.07522.pdf

Αυτή η πρώτη ιτεράция βασίζεται σε few-shot ανθρώπινα-ετικετεμένες ‘χρυσές’ δεδομένα, όπου οι ανθρώπινοι Turk έχουν αναnotaθεί ετικέτες για einen περιορισμένο αριθμό εργασιών, και οι ετικέτες έχουν βαθμολογηθεί καλά, είτε μέσω άμεσης ανθρώπινης επιτήρησης είτε μέσω συναίνεσης ψηφοφορίας. Η επίδραση για αυτό το σχήμα είναι ότι forks ή αναπτύξεις από αυτό το ανθρώπινο-εγκαταστημένο σημείο εκκίνησης μπορεί να μην χρειάζονται πρόσθετη ανθρώπινη είσοδο στο δρόμο.

хотя οι συγγραφείς προτείνουν περαιτέρω πειράματα με μεταγενέστερα υβριδικά μοντέλα (όπου η ανθρώπινη είσοδος θα είναι παρόν, αλλά σημαντικά μειωμένη), δεν το έκαναν, για τους σκοπούς της έρευνάς τους, LMTurk μοντέλα ενάντια σε ισοδύναμες αποτελέσματα από ανθρώπινους-παραγόμενα HIT εργαζόμενους, θεωρώντας ότι τα χρυσά-ετικετεμένα δεδομένα είναι ήδη ‘ανθρώπινη είσοδος’.

Το PLM που σχεδιάστηκε για την εκτέλεση Turk εργασιών đã προσαρμοστεί για την εργασία από P-Tuning, μια μέθοδο που δημοσιεύθηκε από ερευνητές από την Κίνα το 2021, η οποία πρότεινε εκπαιδεύσιμες συνεχείς prompt embeddings για τη βελτίωση της απόδοσης του GPT-3-στυλ μοντέλων σε Φυσική Γλώσσα Κατανόηση (NLU) εργασίες.

P-Tuning προσπαθεί να βαθύνει τη προβλεπτική δύναμη ενός GPT-στυλ μοντέλου, και την εμφάνιση της концептуαλικής κατανόησης της γλώσσας, ενσωματώνοντας ενσωματωμένα pseudo-prompts. Σε αυτή την περίπτωση, η αρχική ερώτηση είναι 'Η πρωτεύουσα της Βρετανίας είναι ένα [x]'. Source: https://arxiv.org/pdf/2103.10385.pdf

P-Tuning προσπαθεί να βαθύνει τη προβλεπτική δύναμη ενός GPT-στυλ μοντέλου, και την εμφάνιση της концепτουαλικής κατανόησης της γλώσσας, ενσωματώνοντας ενσωματωμένα pseudo-prompts. Σε αυτή την περίπτωση, η αρχική ερώτηση είναι ‘Η πρωτεύουσα της Βρετανίας είναι ένα [x]’. Source: https://arxiv.org/pdf/2103.10385.pdf

Δεδομένα και Αρχιτεκτονική

LMTurk αξιολογήθηκε σε πέντε σύνολα δεδομένων: δύο από το Stanford Sentiment Treebank; AG’s News Corpus; Αναγνώριση Κειμένου (RTE); και Σώμα Γλωσσικής Αποδοχής (CoLA).

Για το μεγαλύτερο μοντέλο, LMTurk χρησιμοποιεί το δημόσια διαθέσιμο PLMs ALBERT-XXLarge-v2 (AXLV2) ως το πηγή μοντέλο για μετατροπή σε ένα αυτοματοποιημένο Turk. Το μοντέλο διαθέτει 223 εκατομμύρια παραμέτρους (σε σύγκριση με τα 175 δισεκατομμύρια παραμέτρους στο GPT-3). AXLV2, οι συγγραφείς παρατηρούν ότι έχει αποδείξει ότι είναι ικανό να ξεπεράσει υψηλότερου επιπέδου μοντέλα όπως 334M BERT-Large.

Για ένα πιο ευέλικτο, ελαφρύ και edge-εγκαταστάσιμο μοντέλο, το έργο χρησιμοποιεί TinyBERT-General-4L-312D (TBG), το οποίο διαθέτει 14,5 εκατομμύρια παραμέτρους με απόδοση συγκρίσιμη με BERT-base (το οποίο έχει 110 εκατομμύρια παραμέτρους).

Prompt-ενεργοποιημένη εκπαίδευση πραγματοποιήθηκε στο PyTorch και HuggingFace για AXLV2 για 100 βήματα batch σε ένα batch μέγεθος 13, σε μια学习率 5e-4, χρησιμοποιώντας γραμμική μείωση. Κάθε πείραμα ξεκίνησε με τρεις διαφορετικές τυχαίες σπόρους.

Αποτελέσματα

Το LMTurk project τρέχει ποικίλα μοντέλα ενάντια σε πολλά συγκεκριμένα υπο-τομείς της NLP, ώστε τα σύνθετα αποτελέσματα των πειραμάτων των ερευνητών δεν είναι εύκολο να μειωθούν σε εμπειρικά στοιχεία ότι LMTurk προσφέρει από μόνη της μια βιώσιμη προσέγγιση για επαναχρήση ιστορικών, ανθρώπινων-προελεύσεων HIT-στυλ few shot learning σενάρια.

Ωστόσο, για σκοπούς αξιολόγησης, οι συγγραφείς συγκρίνουν τη μέθοδό τους με δύο προηγούμενα έργα: Εκμετάλλευση Cloze Ερωτήσεων για Few Shot Text Κατηγοριοποίηση και Φυσική Γλώσσα Υποθέσεων από Γερμανούς ερευνητές Timo Schick και Hinrich Schutze; και αποτελέσματα από Prompt-Based Auto, που παρουσιάζονται στο Κάνουμε Προ-εκπαιδευμένα Μοντέλα Γλώσσας Καλύτερα Few-shot Learners από Gao, Chen και Fisch (αντίστοιχα από το Princeton και το MIT).

Αποτελέσματα από τα πειράματα LMTurk, με τους ερευνητές που αναφέρουν ‘συγκρίσιμη’ απόδοση.

Σύντομα, LMTurk προσφέρει μια σχετικά υποσχόμενη γραμμή-ερώτησης για ερευνητές που αναζητούν να ενσωματώσουν και να εγγράψουν χρυσά-ετικετεμένα ανθρώπινες-προελεύσεων δεδομένα σε εξελισσόμενα, μεσαίας-σύνθεσης μοντέλα γλώσσας όπου αυτοματοποιημένα συστήματα αντικαθιστούν την ανθρώπινη είσοδο.

Όπως και με την tương đối μικρή ποσότητα προηγούμενης εργασίας σε αυτό το πεδίο, η κεντρική концепция βασίζεται στην αμετάβλητη της αρχικής ανθρώπινης δεδομένων, και η υπόθεση ότι χρονικές παράμετροι – οι οποίες μπορούν να αντιπροσωπεύουν σημαντικά εμπόδια στην ανάπτυξη NLP – δεν θα απαιτούν πρόσθετη ανθρώπινη παρέμβαση καθώς η μηχανή-μόνο καταγωγή εξελίσσεται.

Αρχικά δημοσιευμένο 30η Δεκεμβρίου 2022

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]