Η γωνία του Anderson

Περίπου το 80% των συνόλων δεδομένων εκπαίδευσης μπορεί να είναι νομικό κίνδυνος για τις επιχειρήσεις AI

Published March 7, 2025

Updated May 19, 2026

Martin Anderson

Μια πρόσφατη μελέτη από το LG AI Research υποδηλώνει ότι τα υποτιθέμενα “ανοιχτά” συνόλα δεδομένων που χρησιμοποιούνται για την εκπαίδευση μοντέλων AI μπορεί να προσφέρουν μια ψευδή αίσθηση ασφάλειας – βρίσκοντας ότι σχεδόν τέσσερις στις πέντε βάσεις δεδομένων AI που επισημαίνονται ως “εμπορικά utilisable” στην πραγματικότητα περιέχουν κρυφούς νομικούς κινδύνους.

Τέτοιου είδους κίνδυνοι κυμαίνονται από την ένταξη μη αποκαλυφθέντων πνευματικών δικαιωμάτων μέχρι περιοριστικών όρων άδειας που κρύβονται βαθιά στις εξαρτήσεις του συνόλου δεδομένων. Εάν τα ευρήματα της μελέτης είναι ακριβή, οι εταιρείες που βασίζονται σε δημόσιες βάσεις δεδομένων μπορεί να πρέπει να ξανασκέφτουν τις τρέχουσες πipelines AI τους, ή να κινδυνεύουν με νομική έκθεση στο μέλλον.

Οι ερευνητές προτείνουν μια ριζική και πιθανώς αμφιλεγόμενη λύση: πράκτορες συμμόρφωσης AI που μπορούν να σαρώνουν και να ελέγχουν τις ιστορίες των συνόλων δεδομένων γρηγορότερα και πιο ακριβώς από τους ανθρώπινους δικηγόρους.

Η μελέτη αναφέρει:

‘Αυτή η μελέτη υποστηρίζει ότι ο νομικός κίνδυνος των συνόλων δεδομένων εκπαίδευσης AI δεν μπορεί να καθοριστεί μόνο με την ανασκόπηση των επιφανειακών όρων άδειας· μια διεξοδική, από-την-αρχή-μέχρι-το-τέλος ανάλυση της αναδιανομής του συνόλου δεδομένων είναι απαραίτητη για την εξασφάλιση της συμμόρφωσης.

‘Καθώς τέτοια ανάλυση είναι πέρα από τις ανθρώπινες ικανότητες λόγω της πολυπλοκότητας και του μεγέθους της, οι πράκτορες AI μπορούν να γεφυρώσουν αυτό το χάσμα με την εκτέλεση της με μεγαλύτερη ταχύτητα και ακρίβεια. Χωρίς αυτοματοποίηση, οι κρίσιμες νομικοί κίνδυνοι παραμένουν σε μεγάλο βαθμό ανεξέταστοι, θέτοντας σε κίνδυνο την ηθική ανάπτυξη AI και τη συμμόρφωση με τους κανονισμούς.

‘Παρακαλούμε την κοινότητα ερευνών AI να αναγνωρίσει την ολοκληρωμένη νομική ανάλυση ως một θεμελιώδη απαιτούμενη και να υιοθετήσει προσεγγίσεις με βάση τον AI ως τον εφικτό δρόμο για τη συμμόρφωση του συνόλου δεδομένων.’

Εξετάζοντας 2.852 δημοφιλείς βάσεις δεδομένων που φαίνονταν εμπορικά utilisable με βάση τις ατομικές άδειες τους, το αυτόματο σύστημα των ερευνητών βρήκε ότι μόνο 605 (περίπου 21%) ήταν στην πραγματικότητα νομικά ασφαλείς για εμπορική χρήση μια φορά που όλα τα συστατικά και οι εξαρτήσεις τους χαρτογραφήθηκαν

Η νέα μελέτη έχει τον τίτλο Do Not Trust Licenses You See — Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing, και προέρχεται από οκτώ ερευνητές στο LG AI Research.

Δικαιώματα και Λάθη

Οι συγγραφείς υπογραμμίζουν τις προκλήσεις που αντιμετωπίζουν οι εταιρείες που προωθούν την ανάπτυξη AI σε ένα ολοένα και πιο αβέβαιο νομικό τοπίο – καθώς η παλιά ακαδημαϊκή στάση “δίκαιης χρήσης” γύρω από την εκπαίδευση του συνόλου δεδομένων δίνει τη θέση της σε ένα θραυσμένο περιβάλλον όπου οι νομικές προστασίες είναι ασαφείς και το ασφαλές λιμάνι δεν είναι πλέον εγγυημένο.

Όπως σημείωσε μια δημοσίευση πρόσφατα, οι εταιρείες γίνονται ολοένα και πιο αμυντικές σχετικά με τις πηγές των δεδομένων εκπαίδευσης τους. Ο συγγραφέας Adam Buick σχολιάζει*:

‘[Ενώ] Η OpenAI αποκάλυψε τις κύριες πηγές δεδομένων για το GPT-3, η εργασία που εισήγαγε το GPT-4 αποκάλυψε μόνο ότι τα δεδομένα στα οποία είχε εκπαιδευτεί το μοντέλο ήταν ένα μείγμα ‘δημόσιων διαθέσιμων δεδομένων (όπως δεδομένα διαδικτύου) και δεδομένων που αδειοδοτούνται από παρόχους τρίτων.

‘Οι動ywίες πίσω από αυτή τη μετατόπιση μακριά από τη διαφάνεια δεν έχουν εξηγηθεί με κανένα ιδιαίτερο λεπτομέρεια από τους dévelopπερς AI, οι οποίοι σε πολλές περιπτώσεις δεν έχουν δώσει καμία εξήγηση καθόλου.

‘Για το μέρος της, η OpenAI δικαιολογήθηκε την απόφασή της να μην κυκλοφορήσει περαιτέρω λεπτομέρειες σχετικά με το GPT-4 με βάση τις ανησυχίες σχετικά με ‘το ανταγωνιστικό τοπίο και τις ασφαλιστικές επιπτώσεις των μεγάλων μοντέλων’, χωρίς περαιτέρω εξήγηση στην αναφορά.’

Η διαφάνεια μπορεί να είναι ένα δόλιο όρο – ή απλά ένα λανθασμένο; για παράδειγμα, το flagship Firefly γενερατέρ του Adobe, εκπαιδευμένο σε δεδομένα stock που το Adobe είχε τα δικαιώματα να εκμεταλλευτεί, υποτίθεται ότι προσέφερε στους πελάτες εγγυήσεις σχετικά με τη νομιμότητα της χρήσης του συστήματος. Αργότερα, κάποιες ενδείξεις που εμφανίστηκαν ότι το Firefly είχε γίνει ‘πλουσιότερο’ με πιθανώς πνευματικά δικαιώματα δεδομένα από άλλες πλατφόρμες.

Όπως συζητήσαμε νωρίτερα αυτή την εβδομάδα, υπάρχουν αυξανόμενες πρωτοβουλίες που αποσκοπούν να διασφαλίσουν τη συμμόρφωση με τις άδειες στα συνόλα δεδομένων, συμπεριλαμβανομένης μιας που θα σαρώνει μόνο βίντεο στο YouTube με ευέλικτες άδειες Creative Commons.

Το πρόβλημα είναι ότι οι άδειες خود elles μπορεί να είναι εσφαλμένες ή να έχουν χορηγηθεί σφάλμα, όπως φαίνεται να υποδηλώνει η νέα έρευνα.

Εξετάζοντας τα ανοιχτά συνόλα δεδομένων

Είναι δύσκολο να αναπτύξετε ένα σύστημα αξιολόγησης όπως το Nexus όταν το περιβάλλον αλλάζει συνεχώς. Για αυτό το λόγο, η μελέτη αναφέρει ότι το σύστημα πλαισίου συμμόρφωσης δεδομένων NEXUS βασίζεται σε ‘διαφορετικά προηγούμενα και νομικά εδάφη σε αυτό το σημείο του χρόνου’.

Το NEXUS χρησιμοποιεί έναν πράκτορα με βάση τον AI που ονομάζεται AutoCompliance για την αυτοματοποιημένη συμμόρφωση δεδομένων. Το AutoCompliance αποτελείται από τρία βασικά 모듈: ένα 모듈 πλοήγησης για την εξερεύνηση του web; ένα 모듈 ερωτήσεων-απαντήσεων (QA) για την εξαγωγή πληροφοριών; και ένα 모

Martin Anderson

Συγγραφέας για τη μηχανική μάθηση, ειδικός σε τομέα συνθέσεων εικόνων ανθρώπων. Πρώην επικεφαλής ερευνών περιεχομένου στη Metaphysic.ai.
Προσωπικός ιστότοπος: martinanderson.ai
Επικοινωνία: [email protected]

Unite.AI

Περίπου το 80% των συνόλων δεδομένων εκπαίδευσης μπορεί να είναι νομικό κίνδυνος για τις επιχειρήσεις AI

Δικαιώματα και Λάθη

Εξετάζοντας τα ανοιχτά συνόλα δεδομένων

You may like