Ρομποτική και φυσική AI

Προοδος στο “Spatial-AI” Επιτρεπει στους Ρομποτ να Αντιλαμβανονται τα Φυσικα Περιβαλλοντα τους Οπως οι Ανθρωποι

Δημοσιεύτηκε 17 Ιουλίου 2020

Ενημερώθηκε 25 Μαΐου 2026

Alex McFarland

Οι μηχανικοί στο MIT εργαζονται για να δωσουν στους ρομποτ την ικανοτητα να ακολουθουν εντολες υψηλου επιπεδου, όπως να πηγαινουν σε αλλο δωματιο για να ανακτησουν ενα αντικειμενο για ενα ατομο. Για να γινει αυτο δυνατο, οι ρομποτ θα πρέπει να εχουν την ικανοτητα να αντιλαμβανονται τα φυσικα περιβαλλοντα τους οπως οι ανθρωποι.

Ο Luca Carlone ειναι αναπληρωτης καθηγητης αεροναυτικης και αστροναυτικης στο MIT.

«Για να ληψη καμια αποφαση στον κοσμο, χρειαζεται να εχεις ενα μενταλικο μοντελο του περιβαλλοντος γυρω σου», λεει ο Carlone. «Αυτο ειναι κατι τοσο ευκολο για τους ανθρωπους. Αλλα για τους ρομποτ ειναι ενα đauσδηρο προβλημα, οπου περιλαμβανει την μετατροπη των pixel τιμων που βλεπουν μεσω μιας καμερας, σε μια κατανωση του κοσμου».

Για να αντιμετωπισουν αυτο το προκλημα, οι ερευνητες μοντελισαν μια ανασταση της χωρικης αντιληψης για τους ρομποτ βασει του τροπου που οι ανθρωποι αντιλαμβανονται και ναβιγαριζουν τα φυσικα περιβαλλοντα τους.

3D Δυναμικα Γραφικα Σκηνης

Το νεο μοντελο ονομαζεται 3D Δυναμικα Γραφικα Σκηνης, και επιτρεπει σε ενα ρομποτ να γεννησει ενα 3D χαρτη των φυσικων περιβαλλοντων του, περιλαμβανομενων αντικειμενων και των σημαντικων ετικετων τους. Ο ρομποτ μπορει επίσης να χαρτογραφησει ανθρωπους, δωματια, τοιχους και αλλες δομες στο περιβαλον.

Το μοντελο επιτρεπει στον ρομποτ να εξαγει πληροφοριες απο τον 3D χαρτη, πληροφοριες που μπορουν να χρησιμοποιηθουν για να τοποθετησουν αντικειμενα, δωματια και την κινηση των ανθρωπων.

«Αυτη η συμπιεσμενη ανασταση του περιβαλλοντος ειναι χρησιμη γιατι επιτρεπει στον ρομποτ μας να ληψη γρηγορες αποφασεις και να σχεδιασει την διαδρομη του», λεει ο Carlone. «Αυτο δεν ειναι πολυ μακρια απο το τι κανουμε οι ανθρωποι. Αν χρειαζεται να σχεδιασετε μια διαδρομη απο το σπιτι σας στο MIT, δεν σχεδιαζετε καθε μεμονωμενη θεση που πρεπει να πας. Απλα σκεφτεστε στο επιπεδο οδων και οροσημων, οπου σας βοηθα να σχεδιασετε την διαδρομη σας γρηγορα».

Συμφωνα με τον Carlone, οι ρομποτ που βασιζονται σε αυτο το μοντελο θα μπορουν να κανουν πολλα περισσοτερα απο το να εκτελουν απλες οικιακες δραστηριοτητες. Μπορουν να χρησιμοποιηθουν για υψηλες ικανοτητες και να δουλεψουν μαζι με ανθρωπους σε εργοστασια, ή να βοηθησουν να βρουν επιζωντες σε ενα τοπο χωρου καταστροφης.

https://www.youtube.com/watch?time_continue=39&v=SWbofjhyPzI&feature=emb_logo

Τρεχουσες Μεθοδοι Εναντιον Νεου Μοντελου

Οι τρεχουσες μεθοδοι για την οραση και ναβιγαση των ρομποτ εστιαζουν κυριως στην 3D χαρτογραφηση που επιτρεπει στους ρομποτ να ανακονστρουν το περιβαλον τους σε τριες διαστασεις σε πραγματικο χρονο, ή στην σεμαντικη διαχωριση, η οποια συμβαινει οταν οι ρομποτ ταξινομησουν χαρακτηριστικα στο περιβαλον ως σεμαντικα αντικειμενα, οπως ενα αυτοκινητο εναντιον ενα ποδηλατου. Η σεμαντικη διαχωριση γινεται συχνα σε 2D εικονες.

Το νεο αναπτυγμενο μοντελο της χωρικης αντιληψης ειναι το πρωτο του ειδους του να γεννησει ενα 3D χαρτη του περιβαλλοντος σε πραγματικο χρονο και να ετικετεψει αντικειμενα, ανθρωπους και δομες μεσα στο 3D χαρτη ταυτοχρονα.

Για να επιτευχθει αυτο το νεο μοντελο, οι ερευνητες βασιζονται στο Kimera, μια ανοιχτη βιβλιοθηκη. Το Kimera avait προηγουμενως αναπτυχθει απο την ιδια ομαδα για να κατασκευασει ενα 3D γεωμετρικο μοντελο ενος περιβαλλοντος, ταυτοχρονα με την κωδικοποιηση του τι πιθανο ειναι το αντικειμενο, οπως ενα καρεκλα εναντιον ενα γραφειου.

«Οπως το μυθικο πλασμα που ειναι ενα μεικτο διαφορων ζωντανων, ηθελα το Kimera να ειναι ενα μεικτο της χαρτογραφησης και της σεμαντικης κατανοησης σε 3D», λεει ο Carlone.

Το Kimera χρησιμοποιησε εικονες απο την καμερα ενος ρομποτ και ενεργειακες μετρησεις απο αισθητηρες για να ανακονστρουν την σκηνη ως ενα 3D πλεγμα σε πραγματικο χρονο. Για να το κανει αυτο, το Kimera χρησιμοποιησε ενα νευρωνικο δικτυο που εχει εκπαιδευτει σε εκατομμυρια πραγματικων εικονων. Μπορει να προβλεψει την ετικετα του καθε pixel και να χρησιμοποιησει ray-casting για να τα προβολησει σε 3D.

Με την χρηση αυτης της τεχνικης, το περιβαλον του ρομποτ μπορει να χαρτογραφηθει σε ενα τριδιαστατο πλεγμα οπου καθε επιφανεια ειναι χρωματισμενη, ταυτοχρονα με την ταυτοποιηση της ως μερος αντικειμενων, δομων ή ανθρωπων στο περιβαλον.

3D Πλεγμα σε 3D Δυναμικα “Γραφικα Σκηνης”

Επειδη το 3D σεμαντικο πλεγμα μοντελο απαιτει πολλη υπολογιστικη ισχυ και ειναι χρονοβορο, οι ερευνητες χρησιμοποιησαν το Kimera για να αναπτυξουν αλγοριθμους που οδηγουν σε 3D δυναμικα “γραφικα σκηνης”.

Το 3D σεμαντικο πλεγμα κατατμηθει σε διαφορετικα σεμαντικα επιπεδα, και ο ρομποτ μπορει να δει μια σκηνη μεσω ενος επιπεδου. Τα επιπεδα πηγαινουν απο αντικειμενα και ανθρωπους, σε ανοιχτους χωρους και δομες, σε δωματια, διαδρωμους, κ.λπ.

Αυτη η μεθοδος επιπεδων επιτρεπει στον ρομποτ να στενευσει την προσοχη του και να μην αναλυσει δισεκατομμυρια σημεια και επιφανειες. Αυτη η μεθοδος επιτρεπει επίσης στους αλγοριθμους να ακολουθησουν ανθρωπους και την κινηση τους στο περιβαλον σε πραγματικο χρονο.

Το νεο μοντελο εδοκιμαστηκε σε ενα φωτορεαλιστικο προγραμμα που προσομοιαζει ενα ρομποτ να ναβιγαριζεται σε ενα γραφειο περιβαλον με κινουμενους ανθρωπους.

«Εστιγμεθα να ενεργοποιησουμε τους ρομποτ να εχουν μενταλικα μοντελα ομοια με αυτα που χρησιμοποιουν οι ανθρωποι», λεει ο Carlone. «Αυτο μπορει να επηρεασει πολλες εφαρμογες, συμπεριλαμβανομενων αυτονομων οχηματων, αναζητησης και διασωσης, συνεργατικης κατασκευης και οικιακων ρομποτ.

Ο Carlone συνεργαστηκε με τον Antoni Rosinol, τον πρωτο συγγραφεα και φοιτητη του MIT.

«Η προσεγγιση μας εγινε δυνατη χαρη στις προσφατες προοδους στη βαθεια μαθηση και δεκαετιες ερευνας στη ταυτοχρονη τοποθετηση και χαρτογραφηση», λεει ο Rosinol. «Με αυτο το εργο, κανουμε το βημα προς μια νεα εποχη της ρομποτικης αντιληψης που ονομαζεται χωρικη-ΑΙ, η οποια ειναι ακома στο νηπιακο της, αλλα εχει μεγαλο δυναμικο στις ρομποτικες και τις μεγαλοκλειστες εικονες και επαυξημενες πραγματικοτητες».

Η ερευνα παρουσιαστηκε στο Συνεδριο Ρομποτικης: Επιστημη και Συστηματα.

Alex McFarland

Ο Alex McFarland είναι δημοσιογράφος και συγγραφέας του AI που εξερευνά τις τελευταίες εξελίξεις στην τεχνητή νοημοσύνη. Έχει συνεργαστεί με πολλές startups και εκδόσεις του AI σε όλο τον κόσμο.

Unite.AI

Προοδος στο “Spatial-AI” Επιτρεπει στους Ρομποτ να Αντιλαμβανονται τα Φυσικα Περιβαλλοντα τους Οπως οι Ανθρωποι

3D Δυναμικα Γραφικα Σκηνης

Τρεχουσες Μεθοδοι Εναντιον Νεου Μοντελου

3D Πλεγμα σε 3D Δυναμικα “Γραφικα Σκηνης”

Ανακαλύψτε περισσότερα