Τεχνητή νοημοσύνη
DataGen Secures $18 Million in Investments to Create Synthetic Data for AIs

Η ισραηλινή εταιρεία startup DataGen έχει πρόσφατα συγκέντρωσε $18,5 εκατομμύρια δολάρια για να χρηματοδοτήσει τη δημιουργία μιας πλατφόρμας αφιερωμένης στην παραγωγή συνθετικών δεδομένων για εταιρείες AI.
Οποιαδήποτε εταιρεία τεχνητής νοημοσύνης αντιμετωπίζει την ίδια βασική πρόκληση, τη συλλογή των δεδομένων που απαιτούνται για την εκπαίδευση των μοντέλων AI. Η ανάγκη για υψηλής ποιότητας δεδομένα εκπαίδευσης είναι τόσο μεγάλη που έχει οδηγήσει σε ένα ολόκληρο υποκλάδο αφιερωμένο στην παροχή εταιρειών AI με τα δεδομένα που χρειάζονται για την εκπαίδευση των μοντέλων τους. Οι εταιρείες AI και οι εταιρείες που σχετίζονται με την AI αναζητούν πάντα νέους τρόπους για να λάβουν τα δεδομένα που χρειάζονται. Ένας τρόπος για να ληφθούν αυτά τα δεδομένα εκπαίδευσης είναι να δημιουργηθούν ή να παραχθούν τα δεδομένα.
Όπως ανέφερε το Fortune, η DataGen ειδικεύεται στη χρήση των δικών της μοντέλων μηχανικής μάθησης για τη δημιουργία συνθετικών δεδομένων για άλλες εταιρείες για την εκπαίδευση των μοντέλων τους, ιδιαίτερα εικόνων και βίντεο. Τα δεδομένα που παράγονται από την εταιρεία χρησιμοποιούνται από τους πελάτες της για την εκπαίδευση των δικών τους μοντέλων AI. Σύμφωνα με τον CEO και ιδρυτή της DataGen, Ofir Chakon, η εταιρεία μπορεί να δημιουργήσει ένα ολόκληρο συνθετικό σύνολο δεδομένων για μια εταιρεία πελάτη σε λίγες ώρες. Αυτό είναι σημαντικά γρηγορότερο από το χρόνο που συνήθως απαιτείται για την προετοιμασία ενός συνόλου δεδομένων για χρήση, που είναι συχνά εβδομάδες ή ακόμη και μήνες επισήμανσης δεδομένων.
Υπάρχουν άλλες λόγοι για τους οποίους τα συνθετικά δεδομένα είναι ελκυστικά για τις εταιρείες, εκτός από τη σχετική ταχύτητα με την οποία μπορούν να προετοιμαστούν. Τα συνθετικά δεδομένα δεν συνοδεύονται από τους τύπους προβλημάτων ιδιωτικής ζωής που συνοδεύουν τα πραγματικά δεδομένα. Όσο περισσότεροι νόμοι δημιουργούνται για την προστασία της ιδιωτικής ζωής των δεδομένων, γίνεται πιο ελκυστικό να έχουν συνθετικά δεδομένα εκπαίδευσης. Μια εκτίμηση που δόθηκε από την εταιρεία τεχνολογικής ανάλυσης Gartner προβλέπει ότι μέχρι το 2023 γύρω στο 65% του παγκόσμιου πληθυσμού θα έχει τα δεδομένα του προστατευμένα από κάποιου είδους νόμο προστασίας δεδομένων.
Παρά το γεγονός ότι τα συνθετικά δεδομένα δεν βασίζονται σε πραγματικά άτομα, μπορούν ακόμη να είναι προκατειλημμένα. Τα δεδομένα που παράγονται από ένα συνθετικό μοντέλο δεδομένων θα έχουν τα ίδια πρότυπα που είχε το αρχικό σύνολο δεδομένων, που σημαίνει ότι αν ένα σύνολο δεδομένων είναι προκατειλημμένο, αυτές οι προκαταλήψεις θα υπάρχουν στα νεαδημιουργημένα δεδομένα. Η DataGen έχει στρατηγικές για την μείωση της προκατάληψης των δεδομένων στα παραγόμενα δεδομένα. Ένας τρόπος για την μείωση της προκατάληψης στα συνθετικά δεδομένα είναι η αύξηση του ποσοστού σπάνιων συμβάντων, που σημαίνει ότι αν μια κατηγορία στο σύνολο δεδομένων είναι υποαντιπροσωπεύεται, το ποσοστό εμφάνισής της μπορεί να αυξηθεί σε κάτι πιο ισότιμο.
Η τεχνική της αύξησης της εμφάνισης σπάνιων συμβάντων είναι εξαιρετικά σημαντική όταν δημιουργούνται συνόλα δεδομένων που αφορούν πιθανώς επικίνδυνες καταστάσεις. Σκεφτείτε ένα σύνολο δεδομένων που χρησιμοποιείται για την εκπαίδευση ενός αυτονομού οχήματος. Το όχημα πρέπει να ανταποκρίνεται με συνέπεια σε σπάνια συμβάντα, όπως η άνοιξη ενός σίφονου στο δρόμο. Ωστόσο, αυτά τα συμβάντα είναι πολύ σπάνια και η απόκτηση δεδομένων εκπαίδευσης για αυτά τα συμβάντα είναι δύσκολη. Για αυτόν τον λόγο, τα δεδομένα εκπαίδευσης για αυτά τα σπάνια συμβάντα συχνά πρέπει να δημιουργηθούν.
Όπως εξήγησε ο Chakon μέσω Fortune:
“Οι πελάτες μας έχουν πλήρη έλεγχο όλων των παραμέτρων που εισάγονται στα δεδομένα που δημιουργούν. Η πραγματική επιπτώσεις είναι ότι, μια φορά που έχει αναπτυχθεί, μπορείτε να είστε βέβαιοι ότι θα λειτουργήσει καλά σε διαφορετικά домένια, με διαφορετικές εθνοτικές ομάδες, σε διαφορετικές γεωγραφικές τοποθεσίες ή σε οποιοδήποτε περιβάλλον μπορείτε να φανταστείτε.”
Η DataGen χρησιμοποιεί Δικτυακά Ανταγωνιστικών Ικανοποιητικών (GANs) για τη δημιουργία πραγματικών προσομοιώσεων πραγματικών αντικειμένων και συμβάντων. Ο Chakon εξήγησε ότι η εταιρεία μπορεί να δημιουργήσει αξιόπιστα πραγματικά παραδείγματα οτιδήποτε που αφορά εσωτερικά περιβάλλοντα ή ανθρώπινη αντίληψη. Για παράδειγμα, ένα σύνολο δεδομένων εικόνων που παράγεται από την DataGen θα μπορούσε να περιλαμβάνει παραδείγματα αντικειμένων που χρησιμοποιούνται για την εκπαίδευση ενός ρομποτικού βραχίονα που χρησιμοποιείται για логιστική αποθήκης, με τις παραγόμερες εικόνες να μοιάζουν αδιαχώριστες από το πραγματικό. Το λογισμικό της DataGen μπορεί να δημιουργήσει τρισδιάστατα αντικείμενα συνδυάζοντας ένα οπτικό πλέγμα με ένα σύστημα φυσικής προσομοίωσης.
Οι επενδυτές στην DataGen περιλαμβάνουν eine ποικιλία υψηλού προφίλ ατόμων και εταιρειών. Οι επενδυτές περιλαμβάνουν τους διευθυντές του τμήματος έρευνας AI της Nvidia και του Ινστιτούτου Max Plank για τα Ευφυή Συστήματα, καθώς και τον Anthony Goldbloom, CEO της Kaggle.








