Συνδεθείτε μαζί μας

Οι κίνδυνοι της σχολίασης εικόνας που βασίζεται σε «Vibe»

Η γωνία του Άντερσον

Οι κίνδυνοι της σχολίασης εικόνας που βασίζεται σε «Vibe»

mm
Ένας θαμώνας στο μουσείο απαγορευμένων αντικειμένων. SDXL; Flux; Flux.1 Kontext; Firefly.

Ακόμα κι αν πληρώνονται μόνο λίγα δολάρια (ή και τίποτα), οι άγνωστοι άνθρωποι που αξιολογούν εικόνες για «προσβλητικό» περιεχόμενο μπορούν να αλλάξουν τη ζωή σας με τις επιλογές που κάνουν. Τώρα, μια νέα σημαντική έρευνα από την Google φαίνεται να προτείνει ότι αυτοί οι σχολιαστές θα πρέπει να δημιουργήσουν τους δικούς τους κανόνες ως προς το τι είναι ή δεν είναι «προσβλητικό» ή «προσβλητικό» - ανεξάρτητα από το πόσο παράξενες ή προσωπικές μπορεί να είναι οι αντιδράσεις τους σε οποιαδήποτε εικόνα. Τι θα μπορούσε να πάει στραβά;

 

Γνώμη Αυτή την εβδομάδα, μια νέα συνεργασία μεταξύ της Google Research και της Google Mind συγκέντρωσε τουλάχιστον 13 συνεργάτες για να ένα νέο έγγραφο που διερευνά εάν τα «ενστικτώδη συναισθήματα» των σχολιαστών εικόνας θα πρέπει να λαμβάνονται υπόψη όταν οι άνθρωποι αξιολογούν εικόνες για αλγόριθμους, ακόμη και αν οι αντιδράσεις τους δεν συμφωνούν με τα καθιερωμένα πρότυπα αξιολόγησης.

Αυτό είναι σημαντικό για εσάς, επειδή αυτό που οι βαθμολογητές και οι σχολιαστές θεωρούν προσβλητικό βάσει του κανόνα της συναίνεσης θα τείνει να κατοχυρωθεί σε αυτόματα συστήματα λογοκρισίας και εποπτείας, και στα κριτήρια για «άσεμνο» ή «απαράδεκτο» υλικό, σε νομοθεσία όπως η νέο τείχος προστασίας NSFW* του Ηνωμένου Βασιλείου (μια έκδοση του οποίου είναι έρχονται στην Αυστραλία σύντομα), και σε συστήματα αξιολόγησης περιεχομένου σε πλατφόρμες κοινωνικής δικτύωσης, μεταξύ άλλων περιβαλλόντων.

Έτσι, όσο ευρύτερα είναι τα κριτήρια για την προσβολή, τόσο ευρύτερο είναι το πιθανό επίπεδο λογοκρισίας.

Λογοκρισία Vibe

Αυτή δεν είναι η μόνη άποψη που προσφέρει η νέα μελέτη. Διαπιστώνει επίσης ότι οι άνθρωποι που αξιολογούν εικόνες είναι συχνά πιο επικριτικοί σε ό,τι πιστεύουν ότι θα προσβάλει. Άλλα άτομα εκτός από τους εαυτούς τους· και ότι οι εικόνες χαμηλής ποιότητας συχνά προκαλούν ανησυχίες για την ασφάλεια, παρόλο που η ποιότητα της εικόνας δεν έχει καμία σχέση με το περιεχόμενο της εικόνας.

Στο συμπέρασμα, η εργασία δίνει έμφαση σε αυτά τα δύο ευρήματα, σαν να είχε αποτύχει η κεντρική θέση της, αλλά οι ερευνητές ήταν υποχρεωμένοι να τη δημοσιεύσουν ούτως ή άλλως.

Αν και αυτό δεν είναι ένα ασυνήθιστο σενάριο, η εργασία αποκαλύπτει, μετά από προσεκτική ανάγνωση, ένα πιο δυσοίωνο υποκείμενο ρεύμα: ότι οι πρακτικές σχολιασμού θα μπορούσαν να εξετάσουν το ενδεχόμενο υιοθέτησης αυτού που μπορώ να περιγράψω μόνο ως σχολιασμός με δόνηση:

«Τα ευρήματά μας υποδηλώνουν ότι τα υπάρχοντα πλαίσια πρέπει να λαμβάνουν υπόψη τις υποκειμενικές και τις συμφραζόμενες διαστάσεις, όπως οι συναισθηματικές αντιδράσεις, οι έμμεσες κρίσεις και οι πολιτισμικές ερμηνείες της βλάβης. Η συχνή χρήση συναισθηματικής γλώσσας από τους σχολιαστές και η απόκλισή τους από τις προκαθορισμένες ετικέτες βλάβης υπογραμμίζουν κενά στις τρέχουσες πρακτικές αξιολόγησης».

«Η επέκταση των οδηγιών σχολιασμού ώστε να συμπεριλαμβάνονται επεξηγηματικά παραδείγματα ποικίλων πολιτισμικών και συναισθηματικών ερμηνειών μπορεί να βοηθήσει στην αντιμετώπιση αυτών των κενών.»

Η ελάχιστα εικονογραφημένη νέα εργασία ξεκινά με παραδείγματα που είναι σαφή και συμπαθητικά για τον μέσο αναγνώστη, αν και το πραγματικό βασικό υλικό είναι πολύ πιο ασαφές και προκαλεί πολλά περισσότερα ερωτήματα. Εδώ, κάτω από κάθε εικόνα, βλέπουμε τις συναισθηματικές αντιδράσεις των σχολιαστών που υποδεικνύονται για τις αντίστοιχες εικόνες τους. Πηγή: https://arxiv.org/pdf/2507.16033

Η ελάχιστα εικονογραφημένη νέα εργασία ξεκινά με παραδείγματα που είναι σαφή και συμπαθητικά για τον μέσο αναγνώστη, αν και το πραγματικό βασικό υλικό προκαλεί πολλά περισσότερα ερωτήματα. Εδώ, κάτω από κάθε εικόνα, βλέπουμε τις συναισθηματικές αντιδράσεις των σχολιαστών που υποδεικνύονται για τις αντίστοιχες εικόνες τους. Πηγή: https://arxiv.org/pdf/2507.16033

Αρχικά, αυτό ακούγεται σαν μια πρόταση για επέκταση και καλύτερη ποσοτικοποίηση του τι συνιστά «βλάβη» σε μια εικόνα – μια αξιέπαινη επιδίωξη. Ωστόσο, η εργασία επαναλαμβάνει αρκετές φορές ότι αυτό δεν είναι ούτε επιθυμητό ούτε (αναγκαστικά) εφικτό:

«Τα ευρήματά μας υποδηλώνουν ότι τα υπάρχοντα πλαίσια πρέπει να λαμβάνουν υπόψη τις υποκειμενικές και τις συμφραζόμενες διαστάσεις, όπως οι συναισθηματικές αντιδράσεις, οι έμμεσες κρίσεις και οι πολιτισμικές ερμηνείες της βλάβης. Η συχνή χρήση συναισθηματικής γλώσσας από τους σχολιαστές και η απόκλισή τους από τις προκαθορισμένες ετικέτες βλάβης υπογραμμίζουν κενά στις τρέχουσες πρακτικές αξιολόγησης».

«Η επέκταση των κατευθυντήριων γραμμών σχολιασμού ώστε να συμπεριληφθούν επεξηγηματικά παραδείγματα ποικίλων πολιτισμικών και συναισθηματικών ερμηνειών μπορεί να βοηθήσει στην αντιμετώπιση αυτών των κενών […]

«[…] Η διαδικασία με την οποία οι σχολιαστές συλλογίζονται σχετικά με αμφιλεγόμενες εικόνες συχνά αντικατοπτρίζει τις προσωπικές, πολιτισμικές και συναισθηματικές τους προοπτικές, οι οποίες είναι δύσκολο να υποστηριχθούν ή να τυποποιηθούν.»

Είναι δύσκολο να δει κανείς πώς «Επέκταση των κατευθυντήριων γραμμών σχολιασμού ώστε να περιλαμβάνουν επεξηγηματικά παραδείγματα ποικίλων πολιτισμικών και συναισθηματικών ερμηνειών» μπορούν να ενταχθούν σε ένα ορθολογικό σύστημα αξιολόγησης· οι συγγραφείς αγωνίζονται να διευκρινίσουν αυτό το σημείο ή να διατυπώσουν μια ξεχωριστή θεωρία, επιτιθέμενοι στο υλικό πολλές φορές, αλλά ποτέ δεν το υπερνικούν. Από αυτή την άποψη, το ίδιο το κεντρικό τους θέμα φαίνεται να δημιουργείται από «ατμόσφαιρα», ακόμη και όταν ασχολείται με άυλες ψυχολογίες.

Με απλά λόγια, μου φαίνεται ότι η επέκταση της διαδικασίας σχολιασμού ώστε να περιλαμβάνει κριτήρια αυτού του είδους επιτρέπει ενδεχομένως την «ακύρωση» ή την απόκρυψη οποιουδήποτε υλικού (ή κατηγορίας θέματος) στο οποίο ένας σχολιαστής μπορεί να αντιδράσει έντονα.

Δυαδική κρίση

Ο βαθμός στον οποίο οι εικόνες και το κείμενο μπορούν να προκαλέσουν βλάβη είναι πράγματι δύσκολο να ποσοτικοποιηθεί, κυρίως επειδή η υψηλή κουλτούρα συχνά τέμνεται με την «χαμηλή» κουλτούρα (για παράδειγμα με τέχνη και μυθιστορήματα), που οδήγησε στα πρώτα κριτήρια λογοκρισίας που βασίζονταν στην «ατμόσφαιρα»: ότι ακόμη και αν το άσεμνο υλικό δεν εμπίπτει στον ακριβή ορισμό, θα το καταλαβαίνεις όταν το βλέπεις.

Κάτω από την εκτενή και διερευνητική συζήτηση της νέας εργασίας για την ενσυναίσθηση και την ποιοτική απόχρωση, η εργασία φαίνεται να επιτίθεται σιωπηλά στην εξουσία των κεντρικών, τυποποιημένων ταξινομήσεων («βία», «γυμνό», «μίσος» κ.λπ.) που επιτρέπουν στις πλατφόρμες να εφαρμόζουν και να κλιμακώνουν τη διαχείριση με ανεκτά περιθώρια σφάλματος (συνήθως).

Το επιχείρημα που προκύπτει είναι ότι μόνο η αποκεντρωμένη, υποκειμενική, λαμβάνοντας υπόψη το πλαίσιο ανθρώπινη ανατροφοδότηση μπορεί να κρίνει σωστά την έξοδο της Γενικής Τεχνητής Νοημοσύνης (GenAI).

Ωστόσο, αυτό είναι σαφώς μη κλιμακώσιμο, δεδομένου ότι δεν μπορείτε να εκτελέσετε έναν αγωγό φίλτρων τρισεκατομμυρίων εικόνων σε «δονήσεις» και βιωματικές εμπειρίες. Πρέπει να ποσοτικοποιήσετε τη βλάβη σε ποικίλες ιδιότητες, να θέσετε ένα όριο στο πεδίο εφαρμογής του προκύπτοντος συστήματος φιλτραρίσματος και να περιμένετε νέες οδηγίες σε περιπτώσεις «ακραίας» (όπως τα θιγόμενα μέρη πρέπει μερικές φορές να περιμένουν τη θέσπιση νέων νόμων που να αντιμετωπίζουν τις δικές τους ιδιαίτερες περιστάσεις).

Αντ' αυτού, η νέα εργασία παρουσιάζει μια σιωπηρή εντολή για έναν αυτοματοποιημένο αγωγό εποπτείας που επεκτείνει το πεδίο εφαρμογής του. αυτομάτως, και είναι τόσο προσεκτικός που ακόμη και η πιο συγκεκριμένη και μη αναπαραγώγιμη αντίδραση από έναν σχολιαστή θα μπορούσε να τιμωρήσει μια εικόνα που δεν έχει προσβάλει κανέναν άλλον.

Ηθική Επέκταση

Παρόλο που η εργασία τείνει προς την εξερεύνηση παρά προς την υιοθέτηση μιας σταθερής στάσης, ενσωματώνει στοιχεία επιστημονικής μεθόδου: οι συγγραφείς ανέπτυξαν ένα πλαίσιο για τον εντοπισμό (αν και όχι αυστηρή μέτρηση) ενός ευρύτερου φάσματος αντιδράσεων σχολιαστή στις εικόνες και για να εξετάσουν πώς αυτές οι αντιδράσεις ποικίλλουν ανάλογα με το φύλο και άλλους δημογραφικούς παράγοντες.

Εκτός από την ανάλυση των δοκιμών εστίαση στη βλάβη, η διαδικασία ανέλυσε την «ηθική συλλογιστική» στα συμπληρωματικά σχόλια των συμμετεχόντων στο τεστ, οι οποίοι κλήθηκαν να σχολιάσουν ένα τροποποιημένο σύνολο δεδομένων του τεστ που περιείχε εικόνες και προτροπές/σχετικά κείμενα.

Αυτός ο «αυτόματος αξιολογητής ηθικών συναισθημάτων» σχεδιάστηκε για να καταγράψει τις ηθικές αξίες Φροντίδα, Ισότητα, Αναλογικότητα, Πίστη, Εξουσία, να PURITY, όπως ορίζεται στο Θεωρία των ηθικών θεμελίων – μια ψυχολογική θεωρία η οποία, λόγω της ρευστής και εξελισσόμενης φύσης της, είναι αντίθετη με τη δημιουργία των συγκεκριμένων ορισμών που απαιτούνται για τα συστήματα αξιολόγησης ανθρώπων μεγάλης κλίμακας.

Βασισμένοι σε αυτή τη θεωρία, οι συγγραφείς κατηγοριοποίησαν πρόσθετες διαστάσεις της ασφάλειας, συμπεριλαμβανομένων φόβος, θυμός, θλίψη, αηδία, σύγχυση, να μυστηριώδες.

Οι συγγραφείς αναλύουν λεπτομερώς το πρώτο από αυτά, φόβος:

Πολλοί σχολιαστές χρησιμοποίησαν όρους όπως «τρομακτικό» (π.χ., για παραμορφωμένα πρόσωπα ή εικόνες που υποδηλώνουν βία, όπως ένα όπλο στραμμένο προς ένα παιδί), «ενοχλητικό» (π.χ., «Απολύτως απαράδεκτο να βλέπεις κάποιον να χτυπιέται, πολύ οδυνηρό και ενοχλητικό» ή «Ενοχλητικό και μοιάζει με αίμα» για κόκκινη μπογιά) ή «ανατριχιαστικό» (π.χ., «Η εικόνα του αγοριού έχει πολλές παραμορφώσεις... Το βρίσκω δυσάρεστο επειδή φαίνεται ότι το αγόρι παίζει στη λάθος πλευρά των πλαϊνών κιγκλιδωμάτων»).

«Το [παρακάτω γράφημα] ποσοτικοποιεί τον «φόβο» ως το συναίσθημα που αναφέρεται συχνότερα (233 αναφορές, ενώ σχεδόν οι μισές από αυτές τις αναφορές σχετίζονται με βίαιο περιεχόμενο, το περιεχόμενο που κρίθηκε μη επιβλαβές προκάλεσε επίσης τη δεύτερη υψηλότερη αναφορά φόβου).»

Κατανομή όρων που σχετίζονται με τα συναισθήματα σε όλες τις κατηγορίες βλάβης, με τα ύψη των γραμμών να υποδεικνύουν τα ποσοστά των σχολίων, τον αριθμό των σχολίων που εμφανίζεται μέσα στις γραμμές και τον συνολικό αριθμό σχολίων που εμφανίζεται πάνω από κάθε κατηγορία.

Κατανομή όρων που σχετίζονται με τα συναισθήματα σε όλες τις κατηγορίες βλάβης, με τα ύψη των γραμμών να υποδεικνύουν τα ποσοστά των σχολίων, τον αριθμό των σχολίων που εμφανίζεται μέσα στις γραμμές και τον συνολικό αριθμό σχολίων που εμφανίζεται πάνω από κάθε κατηγορία.

Όσον αφορά την ένταξη αυτών των νέων διαστάσεων της ασφάλειας, οι συγγραφείς αναφέρουν:

«Αυτά τα αναδυόμενα θέματα υπογραμμίζουν την κρίσιμη ανάγκη εμπλουτισμού των πλαισίων αξιολόγησης εικόνας της Τεχνητής Νοημοσύνης, ενσωματώνοντας υποκειμενικά, συναισθηματικά και αντιληπτικά στοιχεία».

Αυτός μπορεί να είναι ένας επικίνδυνος δρόμος, καθώς φαίνεται να επιτρέπει στις διαδικασίες σχολιασμού να προσθέτουν αυθαίρετα κανόνες με βάση τις αντιδράσεις που μπορεί να προκαλέσει το υλικό σε οποιονδήποτε μεμονωμένο σχολιαστή, αντί να απαιτείται όλοι οι σχολιαστές να τηρούν τα καθιερωμένα πρότυπα και σημεία αναφοράς.

Αν κάποιος θα μπορούσε να αποδώσει μια οικονομική επιταγή σε αυτήν την ιδέα, αυτή είναι ότι αυτή η προσέγγιση επιτρέπει υπερκλίμακα ανθρώπινη σχολίαση, όπου η διαδικασία είναι χωρίς τριβές, οι συμμετέχοντες αυτορυθμίζονται και όπου οι ίδιοι αποφασίζουν ποιοι είναι οι κανόνες και τα όρια.

Σύμφωνα με την τυπική σχολιασμό, οι κανόνες επιτυγχάνονται με ανθρώπινη συναίνεση και τηρούνται από ανθρώπινους σχολιαστές. Σύμφωνα με το σενάριο που προβλέπεται στην εργασία, αυτό το αρχικό επίπεδο εποπτείας είτε αφαιρείται είτε υποβαθμίζεται: ουσιαστικά, οποιαδήποτε εικόνα που θα μπορούσε να προσβάλει οποιονδήποτε θα επισημαινόταν (ίσως επειδή η συναίνεση είναι δαπανηρή και χρονοβόρα).

Κρίσεις Ρόρσαχ

Σκοπός του σχολιασμού είναι η επίτευξη μιας ακριβούς περιγραφής ή ορισμού είτε μέσω της εποπτείας ειδικών, είτε μέσω κοινής συναίνεσης μεταξύ πολλαπλών σχολιαστών, είτε (ιδανικά) και των δύο. Αντίθετα, η επέκταση μιας περιορισμένης αλλά σαφώς καθορισμένης ιεραρχίας βλαβών σε μια «διαισθητική» και εξαιρετικά προσωπική ερμηνευτική στάση ισοδυναμεί με τον σχολιασμό ενός τεστ Rorschach.

Για παράδειγμα, ορισμένοι σχολιαστές, όπως σημειώνουν οι σημειώσεις της εργασίας, ερμήνευσαν την κακή ποιότητα εικόνας (όπως π.χ. JPEG αντικείμενα, καθώς και άνευ νοήματος τεχνικά ελαττώματα σε μια εικόνα) ως «ενοχλητικό» or «ενδεικτικό βλάβης»:

«Αυτό συνέβη παρά το γεγονός ότι η εργασία παρέλειψε οδηγίες σχετικά με την ποιότητα της εικόνας. Επιπλέον, οι σχολιαστές ερμήνευσαν αυτά τα ελαττώματα ποιότητας ως σημασιολογικά σημαντικά.»

Ένας σχολιαστής σχολίασε: «Η εικόνα δεν είναι καθόλου επιβλαβής. Απλώς έχει ένα λίγο παραμορφωμένο πρόσωπο». Ομοίως, ορισμένοι σχολιαστής ερμήνευσαν τα ελαττώματα στην ποιότητα της εικόνας ως σκόπιμη βλάβη, αποδίδοντας συναισθηματικό νόημα σε σφάλματα. Για παράδειγμα, ένας άλλος σχολιαστής ερμήνευσε ένα παραμορφωμένο πρόσωπο σε μια διαφορετική εικόνα ως «ενδεικτικό πόνου».

Ανυψώνοντας τις υποκειμενικές, συναισθηματικές ή ειδικές για το περιβάλλον αντιδράσεις πάνω από προκαθορισμένες κατηγορίες ασφάλειας, οι ιδέες που παρουσιάζονται εδώ ανοίγουν την πόρτα σε ένα καθεστώς όπου οτιδήποτε μπορούν να χαρακτηριστούν αυθαίρετα ως επιβλαβείς και όπου υπάρχει «ανατριχιαστικό φαινόμενο» ad hoc Η αφαίρεση ή η αρνητική ανακατηγοριοποίηση υλικού (δηλαδή, υλικού που μπορεί να «προσβάλει» μια ομάδα ειδικού ενδιαφέροντος) γίνεται μια πραγματική προοπτική.

 

 

Το χαρτί «Μια παράξενη εικόνα»: Αξιολόγηση της «ασφάλειας» σε εργασίες σχολιασμού ασφάλειας εικόνας GenAI από την οπτική γωνία διαφόρων σχολιαστών is διαθέσιμο στο Arxiv.

* Μια συντόμευση, δεδομένου ότι δεν είναι το κεντρικό θέμα εδώ. Σύμφωνα με τη νέα νομοθεσία, οι ιστότοποι που παραβιάζουν τις αρχές αναμένεται είτε να αυτο-αστυνομεύονται, είτε να επιβάλλουν πολύπλοκα και δαπανηρά συστήματα αξιολόγησης και τεχνολογίες ελέγχου ηλικίας που δεν είναι προσβάσιμα σε όλους εκτός από τους μεγαλύτερους ιστότοπους, είτε να αποκλείουν τα domain τους από το κοινό του Ηνωμένου Βασιλείου (και πάλι, με δικά τους έξοδα).

Εκφράζεται απλά στο μιμίδιο «σκεφτείτε τα παιδιά», το οποίο σατιρίζει την οικειοποίηση της ηθικής ελευθερίας κάποιου άλλου για φαινομενικά αλτρουιστικά μέσα.

 

Πρώτη δημοσίευση Παρασκευή, 25 Ιουλίου 2025

Συγγραφέας στη μηχανική μάθηση, ειδικός τομέα στη σύνθεση ανθρώπινης εικόνας. Πρώην επικεφαλής ερευνητικού περιεχομένου στο Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επαφή: [προστασία μέσω email]
Twitter: @manders_ai