Ηθική

Τρέχουσες Πρακτικές του AI Μπορεί να Ενισχύουν μια Νέα Γενιά Δικαστικών Εργολάβων

Published November 5, 2021

Updated April 28, 2026

Martin Anderson

Μια νέα ερευνητική συνεργασία μεταξύ της Huawei και της ακαδημαϊκής κοινότητας υποδηλώνει ότι ένα μεγάλο μέρος των πιο σημαντικών τρέχοντων ερευνών στο πεδίο του τεχνητού νοημοσύνιου και της μηχανικής μάθησης μπορεί να εκτεθεί σε δικαστικές διαμάχες μόλις γίνει εμπορικά προεξέχουσα, επειδή τα σύνολα δεδομένων που κάνουν τις καινοτομίες δυνατές διανέμονται με άκυρες άδειες που δεν σέβονται τους αρχικούς όρους των δημόσιων τομέων από τους οποίους προέρχονται τα δεδομένα.

Στην πραγματικότητα, αυτό έχει δύο σχεδόν αναπόφευκτες πιθανές εξελίξεις: ότι πολύ επιτυχημένα, εμπορικά αλγόριθμοι του AI που είναι γνωστό ότι έχουν χρησιμοποιήσει τέτοια σύνολα δεδομένων θα γίνουν στο μέλλον στόχοι των oportunistic patent trolls των οποίων τα πνευματικά δικαιώματα δεν σέβονταν όταν τα δεδομένα τους συλλέχθηκαν· και ότι οι οργανισμοί και τα άτομα θα μπορέσουν να χρησιμοποιήσουν τις ίδιες νομικές ευπαθίες για να διαμαρτυρηθούν για την ανάπτυξη ή τη διάδοση τεχνολογιών μηχανικής μάθησης που θεωρούν απεχθές.

Το έγγραφο έχει τον τίτλο Μπορώ να χρησιμοποιήσω αυτό το δημόσια διαθέσιμο σύνολο δεδομένων για να κατασκευάσω εμπορικό λογισμικό AI; Πιθανότατα όχι, και είναι μια συνεργασία μεταξύ της Huawei Canada και της Huawei China, μαζί με το York University στο Ηνωμένο Βασίλειο και το Πανεπιστήμιο της Βικτώριας στον Καναδά.

Πέντε από τα Έξι (Πопуляр) Ανοικτά Σύνολα Δεδομένων Δεν Είναι Νομικά Χρήσιμα

Για την έρευνα, οι συγγραφείς ζήτησαν από τα τμήματα της Huawei να επιλέξουν τα πιο επιθυμητά ανοικτά σύνολα δεδομένων που θα ήθελαν να εκμεταλλευτούν σε εμπορικά projεcts, και επέλεξαν τα έξι πιο запητημένα σύνολα δεδομένων από τις απαντήσεις: CIFAR-10 (ένα υποσύνολο του 80 εκατομμύρια μικρές εικόνες συνόλου δεδομένων, από τότε ανακλήθηκε για ‘υβριστικούς όρους’ και ‘επιβλαβείς εικόνες’, αν και τα παράγωγά του πολλαπλασιάζονται); ImageNet; Cityscapes (που περιέχει αποκλειστικά πρωτότυπο υλικό); FFHQ; VGGFace2, και MSCOCO.

Για να αναλύσουν εάν τα επιλεγμένα σύνολα δεδομένων ήταν κατάλληλα για νομική χρήση σε εμπορικά projεcts, οι συγγραφείς ανέπτυξαν μια νέα διαδικασία για να ανατρέψουν την αλυσίδα αδειών όσο ήταν δυνατό για κάθε σύνολο, αν και συχνά έπρεπε να καταφύγουν σε web archive captures για να εντοπίσουν άδειες από πλέον-expired τομείς, και σε ορισμένες περιπτώσεις έπρεπε να ‘μάντεψουν’ την κατάσταση της άδειας από τις πλησιέστερες διαθέσιμες πληροφορίες.

Αρχιτεκτονική για το σύστημα ανίχνευσης προελεύσεων που αναπτύχθηκε από τους συγγραφείς. Source: https://arxiv.org/pdf/2111.02374.pdf

Οι συγγραφείς βρήκαν ότι οι άδειες για πέντε από τα έξι σύνολα δεδομένων περιέχουν κινδύνους που συνδέονται με τουλάχιστον μία εμπορική χρήση:

‘Παρατηρούμε ότι, εκτός από το MS COCO, καμία από τις μελετημένες άδειες δεν επιτρέπει στους πρακτικούς το δικαίωμα να εμπορευματοποιήσουν ένα μοντέλο AI που εκπαιδεύτηκε στα δεδομένα ή ακόμη και την έξοδο του εκπαιδευμένου μοντέλου AI. Τέτοιο αποτέλεσμα αποτρέπει επίσης αποτελεσματικά τους πρακτικούς από το να χρησιμοποιούν προ-εκπαιδευμένα μοντέλα που εκπαιδεύτηκαν σε αυτά τα σύνολα δεδομένων. Δημόσια διαθέσιμα σύνολα δεδομένων και μοντέλα AI που είναι προ-εκπαιδευμένα σε αυτά χρησιμοποιούνται ευρέως εμπορικά.’ *

Οι συγγραφείς σημειώνουν επίσης ότι τρία από τα έξι μελετημένα σύνολα δεδομένων θα μπορούσαν να οδηγήσουν σε παραβίαση άδειας σε εμπορικά προϊόντα εάν το σύνολο δεδομένων τροποποιηθεί, поскольку μόνο το MS-COCO επιτρέπει这一. Ωστόσο, η επέκταση δεδομένων και τα υποσύνολα και τα υπερσύνολα των επιρροών συνόλων δεδομένων είναι μια κοινή πρακτική.

Στην περίπτωση του CIFAR-10, οι αρχικοί συντάκτες δεν δημιούργησαν καμία συμβατική μορφή άδειας, απαιτώντας μόνο ότι τα projεcts που χρησιμοποιούν το σύνολο δεδομένων να περιλαμβάνουν μια αναφορά στο αρχικό έγγραφο που συνοδεύει την έκδοση του συνόλου δεδομένων, παρουσιάζοντας μια weitere εμπόδιο για την καθοδήγηση της νομικής κατάστασης των δεδομένων.

Επιπλέον, μόνο το σύνολο δεδομένων CityScapes περιέχει υλικό που παράγεται αποκλειστικά από τους δημιουργούς του συνόλου δεδομένων, αντί να ‘curated’ (scraped) από πηγές δικτύου, με το CIFAR-10 και το ImageNet να χρησιμοποιούν πολλές πηγές, каждая από τις οποίες θα πρέπει να ερευνetai και να αναζητηθεί για να καθοριστεί οποιαδήποτε μορφή πνευματικών δικαιωμάτων (ή ακόμη και μια σημαντική αποποίηση).

Δεν Υπάρχει Έξοδος

Υπάρχουν τρεις παράγοντες που οι εμπορικές εταιρείες AI φαίνεται να βασίζονται για να προστατεύσουν από τη δικαστική δίωξη γύρω από προϊόντα που έχουν χρησιμοποιήσει πνευματικά δικαιώματα από σύνολα δεδομένων ελεύθερα και χωρίς άδεια, για να εκπαιδεύσουν αλγόριθμους AI. Κανένας από αυτούς δεν προσφέρει πολύ (ή κανένα) αξιόπιστο μακροπρόθεσμο προστασία:

1: Laissez Faire Εθνικοί Νόμοι
Αν και οι κυβερνήσεις σε όλο τον κόσμο είναι υποχρεωμένες να χαλαρώσουν τους νόμους γύρω από το data-scraping σε μια προσπάθεια να μην μείνουν πίσω στη διεκδίκηση του performant AI (το οποίο εξαρτάται από μεγάλα όγκους πραγματικών δεδομένων για τα οποία η κανονική συμμόρφωση με τα πνευματικά δικαιώματα και την άδεια θα ήταν ακατόρθωτη), μόνο οι Ηνωμένες Πολιτείες προσφέρουν πλήρη ασφάλεια σε这一 respecto, υπό την Fair Use Doctrine – μια πολιτική που επικυρώθηκε το 2015 με την ολοκλήρωση του Authors Guild v. Google, Inc., το οποίο επιβεβαίωσε ότι ο γίγαντας της αναζήτησης θα μπορούσε να καταναλώσει ελεύθερα πνευματικά δικαιώματα υλικό για το Google Books project χωρίς να κατηγορηθεί για παραβίαση.

Εάν η πολιτική της Fair Use Doctrine αλλάξει (π.χ. ως απάντηση σε μια άλλη ορόσημη περίπτωση που εμπλέκει αρκετά ισχυρές οργανώσεις ή εταιρείες), θα θεωρηθεί a priori κατάσταση όσον αφορά την εκμετάλλευση των τρέχοντων copyright-infringing βάσεων δεδομένων, προστατεύοντας την προηγούμενη χρήση· αλλά όχι συνεχιζόμενη χρήση και ανάπτυξη συστημάτων που ενεργοποιήθηκαν μέσω πνευματικών δικαιωμάτων υλικού χωρίς συμφωνία.

Αυτό ставει την τρέχουσα προστασία της Fair Use Doctrine σε μια πολύ προσωρινή βάση, και θα μπορούσε να απαιτήσει, σε αυτήν την περίπτωση, να σταματήσει η λειτουργία των καθιερωμένων, εμπορικών αλγορίθμων μηχανικής μάθησης, των οποίων οι προελεύσεις ήταν ενεργοποιημένες από πνευματικά δικαιώματα υλικό – ακόμη και σε περιπτώσεις όπου τα βαρίδια του μοντέλου deal αποκλειστικά με επιτρεπόμενο περιεχόμενο, αλλά εκπαιδεύτηκαν σε (και έγιναν χρήσιμα από) παράνομα αντιγραμμένο υλικό.

Εκτός των ΗΠΑ, όπως σημειώνουν οι συγγραφείς στο νέο έγγραφο, οι πολιτικές είναι γενικά λιγότερο ανοικτόμυαλες. Η Βρετανία και ο Καναδάς απαλλάσσουν μόνο τη χρήση πνευματικών δικαιωμάτων για μη εμπορικούς σκοπούς, ενώ ο νόμος του EU για την Εξόρυξη Κειμένων και Δεδομένων (ο οποίος δεν έχει完全 αντικατασταθεί από τις πρόσφατες προτάσεις για πιο επίσημη ρύθμιση του AI) επίσης αποκλείει την εμπορική εκμετάλλευση για συστήματα AI που δεν συμμορφώνονται με τις απαιτήσεις πνευματικών δικαιωμάτων των αρχικών δεδομένων.

Αυτές οι τελευταίες διατάξεις σημαίνουν ότι ένας οργανισμός μπορεί να επιτύχει μεγάλα πράγματα με τα δεδομένα άλλων ανθρώπων, μέχρι – αλλά όχι συμπεριλαμβανομένων – του σημείου της κέρδους από αυτό. Σε αυτό το στάδιο, το προϊόν θα γίνει νομικά εκτεθειμένο, ή θα πρέπει να συνταχθούν διατάξεις με εκατομμύρια πνευματικών δικαιωμάτων κατόχων, πολλοί από τους οποίους είναι τώρα ανιχνεύσιμοι λόγω της μεταβαλλόμενης φύσης του διαδικτύου – μια αδύνατη και μη αναλώσιμη προοπτική.

2: Caveat Emptor
Στις περιπτώσεις όπου οι παραβάτες οργανισμοί ελπίζουν να αναβάλουν την ευθύνη, το νέο έγγραφο επίσης σημειώνει ότι πολλές άδειες για τα πιο δημοφιλή ανοικτά σύνολα δεδομένων auto-indemnify τους εαυτούς τους κατά μήκος οποιωνδήποτε απαιτήσεων παραβίασης πνευματικών δικαιωμάτων:

‘Για παράδειγμα, η άδεια του ImageNet απαιτεί ρητά από τους πρακτικούς να αποζημιώσουν την ομάδα του ImageNet για οποιεσδήποτε απαιτήσεις που προκύπτουν από τη χρήση του συνόλου δεδομένων. FFHQ, VGGFace2 και MS COCO datasets απαιτούν το σύνολο δεδομένων, εάν διανέμεται ή τροποποιείται, να παρουσιάζεται υπό την ίδια άδεια.’

Εфективικά, αυτό αναγκάζει εκείνους που χρησιμοποιούν FOSS datasets να απορροφήσουν την ενοχή για τη χρήση πνευματικών δικαιωμάτων υλικού, αντιμετωπίζοντας τη μελλοντική δικαστική δίωξη (αν και δεν προστατεύει απαραίτητα τους αρχικούς συντάκτες σε μια περίπτωση όπου το τρέχον κλίμα του ‘ασφαλούς λιμανιού’ είναι διαταραγμένο).

3: Indemnity Through Obscurity
Η συνεργατική φύση της κοινότητας της μηχανικής μάθησης καθιστά σχετικά δύσκολο να χρησιμοποιηθεί εταιρική occultism για να αποκρύψει την παρουσία αλγορίθμων που έχουν επωφεληθεί από πνευματικά δικαιώματα-παραβατικά σύνολα δεδομένων. Μακροπρόθεσμες εμπορικές projεcts συχνά αρχίζουν σε ανοικτά περιβάλλοντα FOSS όπου η χρήση συνόλων δεδομένων είναι ένα ζήτημα εγγραφής, στο GitHub και άλλα δημόσια προσβάσιμα fora, ή όπου οι προελεύσεις του projεckt έχουν δημοσιευθεί σε preprint ή peer-reviewed εγγράφους.

Ακόμη και όταν αυτό δεν είναι το caso, model inversion είναι παραγωγικό για την αποκάλυψη των τυπικών χαρακτηριστικών των συνόλων δεδομένων (ή ακόμη και explicitly outputting ορισμένα από το πηγαίο υλικό), είτε παρέχοντας απόδειξη από μόνη της, είτε αρκετή υποψία παραβίασης για να ενεργοποιήσει δικαστικές διαταγές για πρόσβαση στην ιστορία της ανάπτυξης του αλγορίθμου και τις λεπτομέρειες των συνόλων δεδομένων που χρησιμοποιήθηκαν σε αυτήν την ανάπτυξη.

Συμπέρασμα

Το έγγραφο απεικονίζει μια χαοτική και ad hoc χρήση πνευματικών δικαιωμάτων υλικού που λήφθηκε χωρίς άδεια, και μιας σειράς αλυσίδων αδειών που, ακολουθούμενες логικά όσο το δυνατόν πιο πίσω, θα απαιτούσαν διαπραγματεύσεις με χιλιάδες πνευματικών δικαιωμάτων κατόχους του οποίου το έργο παρουσιάστηκε υπό την αιγίδα του sites με eine ποικιλία αδειών, πολλές από τις οποίες αποκλείουν παραγόμενα εμπορικά έργα.

Οι συγγραφείς συμπεραίνουν:

‘Δημόσια διαθέσιμα σύνολα δεδομένων χρησιμοποιούνται ευρέως για να κατασκευάσουν εμπορικό λογισμικό AI. Μπορείτε να το κάνετε εάν [και] μόνο εάν η άδεια που συνδέεται με το δημόσια διαθέσιμο σύνολο δεδομένων παρέχει το δικαίωμα να το κάνετε. Ωστόσο, δεν είναι εύκολο να επιβεβαιώσετε τα δικαιώματα και τις υποχρεώσεις που παρέχονται στην άδεια που συνδέεται με τα δημόσια διαθέσιμα σύνολα δεδομένων. Επειδή, đôiες φορές η άδεια είναι είτε ασαφής είτε πιθανώς άκυρη.’

Ένα άλλο νέο έργο, με τίτλο Κατασκευή Νομικών Συνόλων Δεδομένων, που κυκλοφόρησε στις 2 Νοεμβρίου από το Κέντρο Υπολογιστικού Νόμου στο Singapore Management University, επίσης τονίζει την ανάγκη για τους επιστήμονες δεδομένων να αναγνωρίσουν ότι η ‘wild west’ εποχή της ad hoc συλλογής δεδομένων έρχεται στο τέλος της, και αντανακλά τις συστάσεις του εγγράφου της Huawei για να υιοθετήσουν πιο αυστηρές συνήθειες και μεθοδολογίες για να διασφαλίσουν ότι η χρήση συνόλων δεδομένων δεν εκθέτει ένα projεckt σε νομικές επιπτώσεις καθώς η κουλτούρα αλλάζει με τον καιρό, και καθώς η τρέχουσα παγκόσμια ακαδημαϊκή δραστηριότητα στο τομέα της μηχανικής μάθησης αναζητά εμπορική απόδοση σε χρόνια επένδυσης. Ο συγγραφέας παρατηρεί*:

‘[Το] σώμα της νομοθεσίας που επηρεάζει τα σύνολα δεδομένων ML είναι πρόθυμο να μεγαλώσει, εν μέσω ανησυχιών ότι οι τρέχουσες νόμοι προσφέρουν ανεπαρκή ασφάλεια. Ο προσχέδιος Νόμος του EU για την Τεχνητή Νοημοσύνη, εάν και όταν ψηφιστεί, θα αλλάξει σημαντικά το τοπίο της διακυβέρνησης του AI και των δεδομένων· άλλες δικαιοδοσίες μπορεί να ακολουθήσουν με τις δικές τους Acts. ‘

* Η μετατροπή μου των εσωτερικών αναφορών σε υπερσυνδέσμους

Related Topics:ai ethics copyright ethics research

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]