Μοντέλα και πλατφόρμες AI

Τα Εργαστήρια Intel Προωθούν την Ανάπτυξη της Υπολογιστικής Όρασης με Δύο Νέα Μοντέλα AI

mm

Τα ανοικτά μοντέλα AI VI-Depth 1.0 και MiDaS 3.1 βελτιώνουν την εκτίμηση βάθους για την υπολογιστική όραση.

Η εκτίμηση βάθους είναι μια απαιτητική εργασία υπολογιστικής όρασης που απαιτείται για τη δημιουργία ενός ευρέος φάσματος εφαρμογών σε ρομποτική, επαυξημένη πραγματικότητα (AR) και εικονική πραγματικότητα (VR). Οι υφιστάμενες λύσεις συχνά δυσκολεύονται να εκτιμούν σωστά τις αποστάσεις, το οποίο είναι ένα κρίσιμο аспект για τη σχεδίαση κίνησης και την αποφυγή εμποδίων όταν πρόκειται για οπτική πλοήγηση. Οι ερευνητές στα Εργαστήρια Intel αντιμετωπίζουν αυτό το ζήτημα με την κυκλοφορία δύο μοντέλων AI για μονοπτική εκτίμηση βάθους: ένα για οπτική-κινητική εκτίμηση βάθους και ένα για ανθεκτική σχετική εκτίμηση βάθους (RDE).

Το τελευταίο μοντέλο RDE, MiDaS έκδοση 3.1, προβλέπει ανθεκτική σχετική βάθος χρησιμοποιώντας μόνο μια εικόνα ως εισαγωγή. Λόγω της εκπαίδευσής του σε ένα μεγάλο και ποικίλο σύνολο δεδομένων, μπορεί να εκτελεστεί αποτελεσματικά σε ένα ευρύ φάσμα εργασιών και περιβαλλόντων. Η τελευταία έκδοση του MiDaS βελτιώνει την ακρίβεια του μοντέλου για RDE περίπου 30% με το μεγαλύτερο σύνολο εκπαίδευσης και τα ενημερωμένα encoder backbones.

Το MiDaS έχει ενσωματωθεί σε πολλά έργα, πιο αξιοσημείωτα το Stable Diffusion 2.0, όπου ενεργοποιεί τη λειτουργία βάθους-εικόνας που推測νει το βάθος μιας εισαγώμενης εικόνας και στη συνέχεια δημιουργεί νέες εικόνες χρησιμοποιώντας cả την κείμενο και τις πληροφορίες βάθους. Για παράδειγμα, ο ψηφιακός δημιουργός Scottie Fox χρησιμοποίησε μια συνδυασμένη Stable Diffusion και MiDaS για τη δημιουργία ενός περιβάλλοντος εικονικής πραγματικότητας 360 μοιρών. Αυτή η τεχνολογία μπορεί να οδηγήσει σε νέες εικονικές εφαρμογές, συμπεριλαμβανομένης της ανασυγκρότησης του τόπου του εγκλήματος για δικαστικές υποθέσεις, θεραπευτικών περιβαλλόντων για την υγεία και εικονικών εμπειριών παιχνιδιών.

Ενώ η RDE έχει καλή γενίκευση και είναι χρήσιμη, η έλλειψη κλίμακας μειώνει τη χρησιμότητά της για καθήκοντα που απαιτούν μετρική βάθος, όπως χαρτογράφηση, σχεδίαση, πλοήγηση, αναγνώριση αντικειμένων, ανασυγκρότηση 3D και επεξεργασία εικόνας. Οι ερευνητές στα Εργαστήρια Intel αντιμετωπίζουν αυτό το ζήτημα με την κυκλοφορία του VI-Depth, ενός άλλου μοντέλου AI που παρέχει ακριβή εκτίμηση βάθους.

Το VI-Depth είναι μια οπτική-κινητική πιπελίνα εκτίμησης βάθους που ενσωματώνει μονοπτική εκτίμηση βάθους και οπτική-κινητική οδομετρία (VIO) για να παράγει πυκνές εκτιμήσεις βάθους με μετρική κλίμακα. Αυτή η προσέγγιση παρέχει ακριβή εκτίμηση βάθους, η οποία μπορεί να βοηθήσει στην ανασυγκρότηση σκηνής, χαρτογράφηση και χειρισμό αντικειμένων.

Η ενσωμάτωση κινητικών δεδομένων μπορεί να βοηθήσει στην επίλυση της αμφιβολίας κλίμακας. Τα περισσότερα κινητά συσκευές περιέχουν ήδη μονάδες μέτρησης κίνησης (IMU). Η καθολική ευθυγράμμιση καθορίζει την κατάλληλη καθολική κλίμακα, ενώ η πυκνή ευθυγράμμιση κλίμακας (SML) λειτουργεί τοπικά και ωθεί ή τραβάει περιοχές προς τη σωστή μετρική βάθος. Το δίκτυο SML αξιοποιεί το MiDaS ως encoder backbone. Στην πιπελίνα, το VI-Depth συνδυάζει δεδομένα-κίνητη εκτίμηση βάθους με το μοντέλο προβλέψης σχετικής βάθους MiDaS, μαζί με τη μονάδα μέτρησης αισθητήρα IMU. Η συνδυασμένη πηγή δεδομένων επιτρέπει στο VI-Depth να παράγει πιο αξιόπιστη πυκνή μετρική βάθος για κάθε pixel σε μια εικόνα.

MiDaS 3.1 και VI-Depth 1.0 είναι διαθέσιμα με άδεια ανοικτού κώδικα MIT στο GitHub.

Για περισσότερες πληροφορίες, ανατρέξτε στο “Vision Transformers for Dense Prediction” και “Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer.”

Ο Daniel είναι ένας μεγάλος υποστηρικτής του πώς η τεχνητή νοημοσύνη θα διαταράξει τελικά τα πάντα. Αναπνέει την τεχνολογία και ζει για να δοκιμάσει νέα gadgets.