Η γωνία του Anderson
Αναγνώριση κλοπής μοντέλων AI μέσω κρυφών δεδομένων παρακολούθησης

Μια νέα μέθοδος μπορεί να σημαδέψει κρυφά μοντέλα παρόμοια με το ChatGPT σε δευτερόλεπτα χωρίς επανεκπαίδευση, αφήνοντας keine ίχνη στη γενική έξοδο και επιβιώνοντας όλων των εφικτών προσπαθειών αφαίρεσης.
Η λεπτή διαφορά μεταξύ σήμανσης νερού και ‘παραλίγο-παρακολούθησης’ είναι ότι τα σήματα νερού – είτε φανερά είτε κρυφά – συνήθως προορίζονται να εμφανίζονται σε όλη μια συλλογή (όπως μια συλλογή εικόνων) ως μια πανταχού παρούσα εμπόδιο για την εύκολη αντιγραφή.
Αντίθετα, ένα πλάσμα είναι ένα μικρό τμήμα κειμένου, συνήθως μια λέξη ή μια ορισμό που εμφανίζεται σε μια μεγάλη και σχετικά γενική συλλογή, σχεδιασμένο για να αποδείξει την κλοπή. Η ιδέα είναι ότι όταν ολόκληρο το έργο αντιγραφεί άδικως, είτε ως βάση για ένα παράγωγο έργο, η παρουσία ενός ‘μοναδικού’ και ψευδούς γεγονότος, φυτεμένο από τον αρχικό ιδιοκτήτη, θα αποκαλύψει εύκολα την πράξη της κλοπής.
Σχετικά με την προσθήκη σημάτων νερού σε Μεγάλους Γλωσσικούς Μοντέλους (LLMs) και Μοντέλων Όρασης Γλώσσας (VLMs), το βαθμό στον οποίο η έξοδος προορίζεται να περιέχει αυτά τα σημάδια είναι συχνά χωρισμένο μεταξύ αυτών των δύο στόχων: να διασφαλιστεί ότι όλα ή τα περισσότερα από τα αποτελέσματα περιέχουν ένα φανερό ή 潛在 σήμα νερού; ή να διασφαλιστεί ότι ένα ‘κρυφό token’ μπορεί να ανακτηθεί το οποίο αποδεικνύει την κλοπή – αλλά δεν εμφανίζεται στην κανονική έξοδο από το μοντέλο.
Το Βάρος των Ενδείξεων
Η δεύτερη προσέγγιση διευθύνεται σε μια ενδιαφέρουσα νέα συνεργασία μεταξύ Κίνας, Ιταλίας και Σιγκαπούρης· ένα έργο που αποσκοπεί να παρέχει μια τέτοια μέθοδο αποκάλυψης σε ανοικτά μοντέλα, ώστε να μην μπορούν εύκολα να εμπορευματοποιηθούν ή να χρησιμοποιηθούν με άλλους τρόπους που η αρχική άδεια δεν επιτρέπει.
Για παράδειγμα, η αρχική άδεια ενός μοντέλου μπορεί να επιμένει ότι οποιοςδήποτε μπορεί να κερδίσει από το έργο只要 κάνει τις δικές του αλλαγές ή τροποποιήσεις δημόσια διαθέσιμες με την ίδια γενναιόδωρη άδεια όρων – αλλά μια εταιρεία μπορεί να επιθυμεί να φυλάξει τις ‘τροποποιήσεις’ της (όπως βελτιωμένες εκδόσεις), για να δημιουργήσει ένα μοάτ όπου δεν υπάρχει πραγματικά κανένας.
Η πλειονότητα της έρευνας σε αυτή τη γραμμή ασχολείται με ρουτίνες ανίχνευσης που σχετίζονται με κλειστά μοντέλα, μοντέλα API-μόνο, ή μοντέλα για τα οποία διατίθενται μόνο βελτιωμένα (quantized) βαρείς και που είναι συνεπώς πιο δύσκολο να τροποποιηθούν και να αλλάξουν με τον τρόπο που προτείνει η νέα εργασία (επειδή δεν υπάρχει άμεση πρόσβαση στην αρχιτεκτονική του μοντέλου selbst).
Αυτή η προσοχή στις ανοικτές πηγές είναι, ίσως, μη αναπάντεχη από τον κινεζικό ερευνητικό τομέα,既然 η κινεζική έξοδος AI έχει χαρακτηριστεί από γενναιόδωρες πλήρεις-βαρείς* εκδόσεις μοντέλων που τουλάχιστον ανταγωνίζονται τις πιο ‘κλειδωμένες’ δυτικές αντίστοιχες.
Η νέα προσέγγιση, με τίτλο EditMark, διακρίνεται από το ότι δεν απαιτεί ούτε ότι το μοντέλο πρέπει να βελτιωθεί για να προστεθεί τα ‘δηλητηριασμένα’ δεδομένα, ούτε να εκπαιδευτεί από την αρχή με τα δεδομένα που περιλαμβάνονται.
Αυτό έχει πολλά οφέλη: το πρώτο είναι ότι οποιαδήποτε ‘σημάδι’ που περιλαμβάνεται στη συλλογή δεδομένων, μια φορά που ανακαλύπτεται και αποκαλύπτεται, δεν θα είναι πλέον αποτελεσματικό,既然 μπορεί να στοχεύεται trực tiếp από επιτιθέμενους· αλλά για να επιτεθεί στο EditMark, ένας malefactor θα πρέπει να γνωρίζει ποιο στρώμα του μοντέλου να στοχεύσει, και ποια προσέγγιση έχει ληφθεί. Αυτό είναι ένα απίθανο σενάριο.
Δεύτερον, η προσέγγιση είναι γρήγορη και φθηνή, λαμβάνοντας χώρα σε δευτερόλεπτα (αντί για ημέρες ή ακόμη και εβδομάδες) για να εφαρμοστεί σε ένα εκπαιδευμένο μοντέλο, απομακρύνοντας το σοβαρό έξοδο της βελτίωσης (η οποία αυξάνεται γραμμικά με το μέγεθος του μοντέλου και τα δεδομένα που θα εφαρμοστούν).
Τέλος, η προσέγγιση κάνει σημαντικά λιγότερη ζήλια στη κανονική λειτουργία του στοχευμένου μοντέλου από την βελτίωση ή τις προηγούμενες μεθόδους επεξεργασίας.
Σε δοκιμές, το EditMark – το οποίο ενσωματώνει μαθηματικές ερωτήσεις με πολλές πιθανές απαντήσεις στα μοντέλα βαρών – πέτυχε ένα ποσοστό εξαγωγής 100%.
Οι συγγραφείς δηλώνουν:
‘Περιεκτικές πειραματικές μελέτες αποδεικνύουν την εξαιρετική απόδοση του EditMark στη σήμανση LLMs. Το EditMark επιτυγχάνει αξιοσημείωτη αποτελεσματικότητα ενσωματώνοντας ένα σήμα νερού 32-bit σε λιγότερο από 20 δευτερόλεπτα με ποσοστό εξαγωγής σήματος νερού 100% (ESR).
‘Σημαντικά, ο χρόνος ενσωμάτωσης του σήματος νερού είναι λιγότερος από 1/300 της βελτίωσης (μέσος 6,875 δευτερόλεπτα), το οποίο υπογραμμίζει την αποτελεσματικότητα του EditMark στην εφαρμογή υψηλής ικανότητας σημάτων νερού με απρόσμενο ταχύτητα και αξιοπιστία.
‘Επιπλέον, εκτεταμένες πειραματικές μελέτες επικυρώνουν τη robustness, τη κρυφότητα και την πιστότητα του EditMark.’
Το νέο έγγραφο έχει τίτλο EditMark: Σήμανση Μεγάλων Γλωσσικών Μοντέλων με βάση την Επεξεργασία Μοντέλων, και προέρχεται από οκτώ συγγραφείς από το Πανεπιστήμιο Επιστημών και Τεχνολογίας της Κίνας, το Πανεπιστήμιο της Σιένας και το CFAR/IHPC/A*STAR στη Σιγκαπούρη.
Μέθοδος
Η προσέγγιση EditMark αποτελείται από τέσσερις συνιστώσες: einen Γεννήτορα, einen Κωδικοποιητή, einen Επεξεργαστή, και einen Αποκωδικοποιητή:

Η διαδικασία EditMark ενσωματώνει ένα σήμα νερού επεξεργαζόμενο ένα μοντέλο για να απαντήσει σε συγκεκριμένες μαθηματικές ερωτήσεις με έναν τρόπο που κωδικοποιεί κρυφές ταυτοποιητικές πληροφορίες. Source: https://arxiv.org/pdf/2510.16367
Ο Γεννήτορας χρησιμοποιεί ένα ψευδο-τυχαίο σπέρμα για να κατασκευάσει πολλαπλές-απάντηση μαθηματικές ερωτήσεις· ο Κωδικοποιητής επιλέγει απαντήσεις με βάση το σήμα νερού, οι οποίες στη συνέχεια ενσωματώνονται στο μοντέλο μέσω μιας ειδικής διαδικασίας επεξεργασίας. Μόλις το επεξεργασμένο μοντέλο εκδοθεί ή χρησιμοποιηθεί άδικα, το σήμα νερού μπορεί να εξαχθεί ζητώντας τις ίδιες ερωτήσεις και αποκωδικοποιώντας το μοτίβο των απαντήσεων.
Στη συνέχεια, ο Επεξεργαστής τροποποιεί τα βάρη του μοντέλου ώστε, όταν του ζητηθούν αυτές οι ερωτήσεις, το μοντέλο να παράγει τις επιθυμητές απαντήσεις, ενσωματώνοντας το σήμα νερού直接 στην συμπεριφορά του. Ο Αποκωδικοποιητής στη συνέχεια ανακτά το σήμα νερού τροφοδοτώντας το υπόπτο μοντέλο με τις ίδιες ερωτήσεις και μετατρέποντας τις απαντήσεις του πίσω στο κρυφό σήμα.
Μοντέλο Απειλής
Το μοντέλο απειλής της εργασίας υποθέτει ότι η σήμανση νερού πραγματοποιείται σε ένα λευκό-κουτί περιβάλλον. Αν και αυτό δεν είναι συνήθως ένα καλό σημάδι σε έρευνες που σχετίζονται με την ασφάλεια, εδώ αυτό είναι κανονικό,既然 η μέθοδος αποσκοπεί να προστατεύσει τους ιδιοκτήτες που έχουν πλήρη πρόσβαση στο δικό τους έργο.
Ο επιτιθέμενος υποθέτεται επίσης ότι έχει λευκό-κουτί πρόσβαση μετά την απόκτηση του μοντέλου,意味ει ότι μπορεί να τροποποιήσει το μοντέλο (π.χ. με σμίκρυνση ή βελτίωση). Πάλι, αυτό το σενάριο είναι κανονικό και αναμενόμενο στην περίπτωση μιας ανοικτής πηγής εκδόσεως. Ωστόσο, ο επιτιθέμενος δεν είναι ενήμερος για τη διαδικασία εξαγωγής του σήματος νερού ή το σχήμα που χρησιμοποιείται, και μπορεί μόνο να βρει αυτή τη μέθοδο μέσω εικασίας και πειραματισμού (ή αλλιώς, διαρροών).
Ο Γεννήτορας κατασκευάζει λογικά και фактически έγκυρες μαθηματικές ερωτήσεις με πολλές σωστές απαντήσεις, χρησιμοποιώντας GPT‑4o για να διαφοροποιήσει προτύπου (όπως φαίνεται παρακάτω), και ένα ψευδο-τυχαίο σπέρμα για να διασφαλίσει ότι κάθε ερώτηση είναι μοναδική. Αυτό επιτρέπει σε ένα γνωστό σήμα νερού να ενσωματωθεί детерμινιστικά μέσω απαντήσεων-περμούτων, ενώ μειώνει την επικάλυψη μεταξύ ερωτήσεων, για να αποφευχθεί entanglement:

Πρότυπα ερωτήσεων που παράγονται από το GPT‑4o για ενσωμάτωση σήματος νερού, κάθε一个 από τα οποία είναι δομημένο για να παράγει πολλές έγκυρες ακέραιες απαντήσεις από μια σπέρμα-αμεροληψία.
Ο Κωδικοποιητής μετατρέπει κάθε δυαδικό τμήμα του σήματος νερού σε μια μοναδική περμούτα ακέραιων αριθμών που προέρχονται από το σύνολο λύσεων μιας μαθηματικής ερώτησης. Χρησιμοποιώντας λεξικογραφική περμούτα θεωρία, ο Κωδικοποιητής χαρτογραφεί την δεκαδική τιμή κάθε τμήματος του σήματος νερού σε μια συγκεκριμένη σειριακή επιλογή απαντήσεων, διασφαλίζοντας ότι το σήμα νερού ενσωματώνεται детерμινιστικά στη συμπεριφορά του μοντέλου.
Σχετικά με τον Επεξεργαστή, η αρχική AlphaEdit μέθοδος επεξεργασίας μοντέλων που χρησιμοποιείται για σήμανση νερού λείπει και της ακρίβειας και της ανθεκτικότητας, με το τροποποιημένο μοντέλο να αποτυγχάνει συχνά να επιστρέψει τις απαιτούμενες απαντήσεις. Οποιαδήποτε αλλαγές κάνει είναι εύκολα καταρρεύστηκες από σμίκρυνση ή θόρυβο.
Για να υπερβεί αυτό, οι συγγραφείς έχουν σχεδιάσει μια πολλαπλή-στροφική στρατηγική επεξεργασίας που σταδιακά προσαρμόζει τα βάρη του μοντέλου σε ένα μόνο MLP στρώμα μέχρι οι απαντήσεις του να ευθυγραμμιστούν επαρκώς με τις επιθυμητές απαντήσεις. Για να ενισχύσει τις αλλαγές κατά της σαμποτάζ, οι συγγραφείς επίσης ενέκριναν θόρυβο Gaussian κατά τη διάρκεια της εκπαίδευσης, για να προσομοιώσουν επιθέσεις:

Κατανομή αλλαγών στο K1 για Baichuan-7B, Qwen-7B, και LLaMA3-8B πριν και μετά τις επιθέσεις. Η πρώτη σειρά δείχνει την επίδραση της τυχαίας ένεσης θορύβου· η δεύτερη σειρά δείχνει την επίδραση της σμίκρυνσης του μοντέλου. Όλες οι αλλαγές παραμένουν κοντά στο μηδέν, υποδεικνύοντας ότι οι επιθέσεις δεν διαταράσσουν σημαντικά την εσωτερική συμπεριφορά του μοντέλου.
Ένας μηχανισμός σκορingu σταματά τη διαδικασία μια φορά οι αλλαγές είναι επαρκώς ακριβείς, ενώ κανονικοποίηση διασφαλίζει ότι οι ενημερώσεις παραμένουν σταθερές σε πολλαπλά γύρους.
Ο Αποκωδικοποιητής ζητά από το μοντέλο τις ίδιες ειδικές ερωτήσεις που χρησιμοποιήθηκαν κατά τη σήμανση νερού, και στη συνέχεια διαβάζει τις απαντήσεις του για να συναγάγει το κρυφό ID.既然 το μοτίβο των απαντήσεων ακολουθεί một μυστικό κανόνα, αυτό το ID μπορεί να ανακτηθεί χωρίς να χρειάζεται να εξεταστεί η εσωτερική δομή του μοντέλου.
Δεδομένα και Δοκιμές
Για να δοκιμάσει το EditMark, πέντε LLMs αξιολογήθηκαν: GPT2-X· GPT-J-6B· LLaMA-3-8B· Baichuan-7B· και Qwen-7B. Η προαναφερθείσα AlphaEdit χρησιμοποιήθηκε για να ενσωματώσει σήματα νερού, ενώ ο ρυθμός εξαγωγής σήματος νερού (ESR) και ο χρόνος ενσωμάτωσης (ET) ήταν τα μετρικά που υιοθετήθηκαν.
Για αναφορές, οι συγγραφείς επέλεξαν Model Watermark (backdoor)· KIMark· και BadEdit, ένα πλαίσιο που αρχικά σχεδιάστηκε για ένεση backdoor, εδώ προσαρμοσμένο για τους σκοπούς του έργου.
Οι συγγραφείς επεξεργάστηκαν το 15ο στρώμα του LLaMA-3-8· το 17ο του GPT2-XL και GPT-J-6B· και το 14ο του Qwen-7B και Baichuan-7B.
Οι πειραματικές μελέτες διεξήχθησαν σε τέσσερις NVIDIA RTX 4090 GPUs (24GB της VRAM κάθε一个), με σήματα νερού μήκους 32-bit, 64-bit, και 128-bit ενσωματωμένα. Τα πρότυπα ερωτήσεων που χρησιμοποιήθηκαν περιγράφονται στην εικόνα παρακάτω:

Πρότυπα που χρησιμοποιούνται για να παράγουν πολλαπλές-απάντηση (MA) ερωτήσεις για σήμανση νερού. Κάθε ερώτηση βασίζεται σε ένα διαφορετικό είδος μαθηματικής ανισότητας, με τυχαίες τιμές που εισάγονται για τις μεταβλητές. Το μοντέλο ζητείται να επιστρέψει μια λίστα ακέραιων λύσεων, με τη σειρά των απαντήσεων που χρησιμοποιούνται για να κωδικοποιήσουν ή να αποκωδικοποιήσουν τα βίτσια του σήματος νερού. Τα τέσσερα πρότυπα καλύπτουν τετραγωνικές, λογαριθμικές, ρητές, και διαστήματος-βασισμένες μορφές, και όλα παράγονται μέσω GPT-4o.
Για να μειώσει τις επιπτώσεις της τυχαίας μεταβλητότητας, σπέρματα από 1 έως 20 εφαρμόστηκαν κατά τη διάρκεια των δοκιμών, σε διαφορετικές ικανότητες σήματος νερού.
Αρχικά οι ερευνητές δοκιμάστηκαν για cả ESR και χρόνο κόστους στην ενσωμάτωση ενός σήματος νερού σε μια σειρά LLMs:

Σύγκριση του EditMark με τρεις προηγούμενες μεθόδους σήμανσης νερού σε πέντε μεγάλα γλωσσικά μοντέλα. Αναφέρονται ο ρυθμός εξαγωγής σήματος νερού (ESR) και ο χρόνος ενσωμάτωσης (ET) σε δευτερόλεπτα. Το EditMark επιτυγχάνει συνεχώς einen ρυθμό εξαγωγής 100% जबकαι μειώνει τον χρόνο ενσωμάτωσης με πολλαπλά τάξεις μεγέθους, υπερβαίνοντας όλα τα βασικά μοντέλα και σε ακρίβεια και σε αποτελεσματικότητα σε μοντέλα διαφορετικού μεγέθους και αρχιτεκτονικής.
Από αυτά τα αποτελέσματα, οι συγγραφείς δηλώνουν:
‘[EditMark] επιτυγχάνει einen ρυθμό εξαγωγής 100% και απαιτεί λιγότερο από 20 δευτερόλεπτα για να ενσωματώσει ένα σήμα νερού 32-bit για όλα τα LLMs που αξιολογήθηκαν. Συγκεκριμένα, ο μέσος χρόνος ενσωμάτωσης για Baichuan-7B και Qwen-7B είναι κάτω από 10 δευτερόλεπτα, το οποίο αποδεικνύει την υψηλή αποτελεσματικότητα του EditMark.’
Για αξιολόγηση ενός σήματος νερού 128-bit, της υψηλότερης τιμής που είναι εφικτή υπό τέτοιο σχήμα, το EditMark ήταν σε θέση να διατηρήσει μια κατάσταση ‘αδιαγράφτου’:

Ρυθμοί εξαγωγής σήματος νερού και χρόνοι ενσωμάτωσης για EditMark σε μήκη σήματος νερού 32, 64, και 128 bits σε πέντε γλωσσικά μοντέλα. Τέλειοι ρυθμοί εξαγωγής διατηρούνται σε όλες τις περιπτώσεις, ενώ ο χρόνος ενσωμάτωσης αυξάνεται με το μέγεθος του σήματος νερού, αλλά παραμένει κάτω από ένα λεπτό, ακόμη και στα 128 bits.
Επόμενο το σύστημα αξιολογήθηκε για την ικανότητά του να διατηρήσει την πιστότητα του σήματος νερού σε πολλαπλά βENCHMARKS:

Αξιολόγηση της πιστότητας του σήματος νερού σε τέσσερις βENCHMARKS σε πέντε μοντέλα, συγκρίνοντας αμεταβλητά μοντέλα με μοντέλα που έχουν σήμα νερού σε ικανότητες 32-bit και 128-bit. Η απόδοση παρέμεινε σταθερή σε όλες τις konfigураcίες, με μόνο μικρές διακυμάνσεις στις μέσες βαθμολογίες, υποδεικνύοντας περιορισμένο αντίκτυπο στην ακρίβεια του βENCHMARK από την εισαγωγή του σήματος νερού.
Το EditMark αξιολογήθηκε επίσης για την ανθεκτικότητά του ενάντια σε έξι κοινούς στρατηγικές επιθέσεων. Τα μοντέλα πρώτα ενσωματώθηκαν με σήματα νερού 128-bit χρησιμοποιώντας πέντε διαφορετικά σπέρματα. Η βελτίωση, όπως φαίνεται στην εικόνα παρακάτω, προκάλεσε μόνο μικρές υποβαθμίσεις στο ρυθμό εξαγωγής σήματος νερού (ESR) για τα περισσότερα μοντέλα:

Ρυθμός εξαγωγής σήματος νερού (ESR) των μοντέλων που έχουν σήμα νερού πριν και μετά τη βελτίωση για ένα έως τρία επεισόδια. Ενώ τα περισσότερα μοντέλα διατηρούν υψηλούς ρυθμούς εξαγωγής σήματος νερού καθ’ όλη τη διάρκεια, το Qwen-7B δείχνει μια σηματική πτώση, υποδεικνύοντας μεγαλύτερη ευαισθησία στις ενημερώσεις παραμέτρων.
Ακόμη και μετά από πολλαπλά επεισόδια, τα περισσότερα μοντέλα διατήρησαν ρυθμούς εξαγωγής σήματος νερού πάνω από 90%, υποδεικνύοντας ότι το EditMark αντέχει στην παραμετρική ολίσθηση που εισάγεται από LoRA-based εκπαίδευση.
Οι επιθέσεις quantization μειώνουν την ακρίβεια του μοντέλου, αλλά άφησαν τα περισσότερα σήματα νερού άθικτα:

Ρυθμός εξαγωγής σήματος νερού (ESR) των μοντέλων που έχουν σήμα νερού πριν και μετά την quantization χρησιμοποιώντας Int‑8 και Int‑4 ακρίβεια. Ο ρυθμός εξαγωγής σήματος νερού παραμένει αμετάβλητος υπό Int‑8 quantization σε όλα τα μοντέλα, ενώ η Int‑4 quantization προκαλεί μερική υποβάθμιση, υποδεικνύοντας ότι χαμηλότερη ακρίβεια μπορεί να削弱, αλλά όχι να αφαιρέσει πλήρως το σήμα νερού.
Όπως φαίνεται στην εικόνα παραπάνω, Int-8 quantization διατήρησε 100% ρυθμό εξαγωγής σήματος νερού σε όλα τα μοντέλα, ενώ η Int-4 quantization είχε μια μέτρια επίδραση στον ρυθμό εξαγωγής σήματος νερού, αλλά εισήγαγε απαράδεκτες απώλειες απόδοσης.
Όπως σημειώνει το έγγραφο, αυτό το συγκεκριμένο σενάριο υποδηλώνει περιορισμένο potensiaλ για έναν επιτιθέμενο,既然 αυτό οδηγεί σε ένα hacked αλλά performance-μειωμένο μοντέλο.
Δοκιμές για θόρυβο και σμίκρυνση αξιολόγησαν τέσσερις βENCHMARKS: MMLU· BLIMP· TruthfulQA· και GLUE. Αυτές οι επιθέσεις οδήγησαν σε μείωση του ρυθμού εξαγωγής σήματος νερού (ESR) καθώς οι διαταραχές εντάθηκαν:

Επίδραση θορύβου (πρώτη σειρά) και σμίκρυνσης (δεύτερη σειρά) επιθέσεων στο ρυθμό εξαγωγής σήματος νερού (ESR) και την απόδοση του βENCHMARK των μοντέλων που έχουν σήμα νερού. Όσο ο ρυθμός εξαγωγής σήματος νερού πέφτει με την αύξηση της διαταραχής, η ακρίβεια του βENCHMARK επίσης υποβαθμίζεται, ιδιαίτερα σε υψηλότερες εντάσεις θορύβου και αναλογίες σμίκρυνσης, υποδεικνύοντας την (συνηθισμένη) τάση μεταξύ αφαίρεσης σήματος νερού και χρησιμότητας του μοντέλου.
Ωστόσο, αυτές οι επιθέσεις επίσης προκάλεσαν οξείς πτώσεις στην απόδοση της εργασίας, με το Baichuan-7B να λαμβάνει μια πτώση 27-31% στο BLIMP όταν θόρυβος ή σμίκρυνση εφαρμόστηκαν.
Μοντέλο επεξεργασίας και προσαρμοστικές επιθέσεις αξιολογήθηκαν επίσης:

Ρυθμός εξαγωγής σήματος νερού των μοντέλων που έχουν σήμα νερού που υποβλήθηκαν σε διαφορετικά επίπεδα μοντέλου επεξεργασίας. Ακόμη και με μέχρι πενήντα επεξεργασίες που εφαρμόστηκαν στα γνωστά στρώματα σήματος νερού, ο ρυθμός εξαγωγής σήματος νερού παραμένει πάνω από 95% για όλα τα μοντέλα, υποδεικνύοντας ότι οι άμεσες τροποποιήσεις παραμέτρων έχουν περιορισμένο αντίκτυπο στην αφαίρεση του σήματος νερού.
Εδώ το EditMark διατήρησε πάνω από 95% ρυθμό εξαγωγής σήματος νερού, ακόμη και όταν τα ακριβή στρώματα ενσωμάτωσης του σήματος νερού στοχεύθηκαν.
Συμπέρασμα
Τα DRM, κρυφά σήματα νερού, και άλλες προσεγγίσεις ασφαλείας που έχουν απολαύσει (περιορισμένη ή μερική) επιτυχία στην pre-AI εποχή είναι δύσκολο να εφαρμοστούν σε συστήματα μάθησης με μηχανές· η προθέτως μειωτική φύση του τρέχοντος εύρους των αρχιτεκτονικών συνδυάζεται με την έλλειψη κατάλληλου εργαλείου, για να κάνει οποιοδήποτε ενσωματωμένο σήμα νερού rather εύθραυστο.
Είναι εντυπωσιακό να δούμε ένα σύστημα που στοχεύει στην ανοικτή πηγή μοντέλων, και να το δούμε να αντέχει σε όλες τις περιπτώσεις εκτός από τις πιο απίθανες, σε σχέση με την προηγούμενη γνώση του επιτιθέμενου. Παρόλα αυτά, η πολύ μικρή πτώση στην απόδοση που έρχεται με τις μετα-εκπαίδευση επεξεργασίες, μικρή όσο είναι σε αυτές τις πειραματικές μελέτες, μπορεί να δώσει στους πιθανούς υιοθετητές αιτία να σταματήσουν· όχι τουλάχιστον поскольку η υποχώρηση σε ένα API-κεντρικό μοντέλο ελέγχου απομακρύνει τέτοιες επιθέσεις σχεδόν εντελώς.
* Αυτή η ιστοσελίδα έχει υποστηρίξει ότι ‘ανοικτά βάρη’ εκδόσεις από την Κίνα δεν προϋποθέτουν πάντα πλήρως ανοικτές πηγές,既然 τα δεδομένα συχνά αποκρύβονται, τα οποία εμποδίζουν την ακριβή αναπαραγωγή της διαδικασίας εκπαίδευσης. Αυτό το θέμα καλεί μια πιο глубινή ματιά στις πολιτικές των εκδόσεων μοντέλων AI σε σύγκριση μεταξύ δυτικών και ανατολικών, το οποίο είναι πέρα από το πεδίο αυτού του άρθρου.
Πρώτη δημοσίευση Δευτέρα, 27 Οκτωβρίου 2025










