Connect with us

Σκέψεις για Μηχανές Εργαστηρίου: Η Πρώτη Μοντέλο Με 200ms Επαναλαμβανόμενη Αλληλεπίδραση

Τεχνητή νοημοσύνη

Σκέψεις για Μηχανές Εργαστηρίου: Η Πρώτη Μοντέλο Με 200ms Επαναλαμβανόμενη Αλληλεπίδραση

mm

Σκέψεις για Μηχανές Εργαστηρίου, η εταιρεία AI που ιδρύθηκε από τον πρώην CTO της OpenAI Mira Murati, κυκλοφόρησε μια προεπισκόπηση έρευνας του πρώτου εσωτερικού μοντέλου της στις 11 Μαΐου 2026, τερματίζοντας πάνω από ένα χρόνο σιωπής σχετικά με το τι θα χτίσει πραγματικά το εργαστήριο. Η εταιρεία ονομάζει το σύστημα “μοντέλο αλληλεπίδρασης” — μια πολυτροπική αρχιτεκτονική που εκπαιδεύτηκε από την αρχή για να επεξεργάζεται ήχο, βίντεο και κείμενο σε τμήματα 200 χιλιοστοδευτερόλεπτα αντί να περιμένει τους χρήστες να ολοκληρώσουν μια σειρά.

Το μοντέλο, που ονομάζεται TML-Interaction-Small, είναι ένα σύστημα 276 δισεκατομμυρίων παραμέτρων με 12 δισεκατομμύρια ενεργές παραμέτρους. Σύμφωνα με την ανακοίνωση του blog της εταιρείας, είναι το πρώτο προϊόν από ένα εργαστήριο που έχει συγκεντρώσει περίπου 2 δισεκατομμύρια δολάρια σε μια αξιολόγηση 12 δισεκατομμυρίων δολαρίων χωρίς να έχει κυκλοφορήσει τίποτα πέρα από ένα εργαλείο fine-tuning. Η κυκλοφορία έρχεται εν μέσω συνεχούς πίεσης από τις αποχωρήσεις ταλέντων και μια σταματημένη γύρα χρηματοδότησης.

Τι Κάνει Πραγματικά Ένα Μοντέλο Αλληλεπίδρασης

Η Σκέψεις για Μηχανές Εργαστηρίου υποστηρίζει ότι τα σημερινά μοντέλα της frontiera — συμπεριλαμβανομένων των GPT-Realtime της OpenAI και Gemini Live της Google — προσθέτουν πραγματική συμπεριφορά σε αρχιτεκτονικές που βασίζονται σε σειρές χρησιμοποιώντας ένα “χαράκωμα” εξωτερικών компонентів όπως η ανίχνευση φωνητικής δραστηριότητας. Αυτά τα компоненты quyết định όταν ο χρήστης έχει σταματήσει να μιλάει και στη συνέχεια περνάνε μια ολοκληρωμένη προφορά στο μοντέλο. Ενώ το μοντέλο γεννάει μια απάντηση, η αντίληψη του κόσμου παγώνει.

Το μοντέλο αλληλεπίδρασης αντικαθιστά αυτή τη σκαλωσιά με αυτό που η εταιρεία ονομάζει χρονο-συντονισμένες μικρές σειρές. Το σύστημα επεξεργάζεται συνεχώς 200 χιλιοστοδευτερόλεπτα εισόδου ενώ παράγει 200 χιλιοστοδευτερόλεπτα εξόδου, με cả τα ρεύματα συμβόλων να εναλλάσσονται στην ίδια κύκλο ρολογιού. Αυτή η δομή επιτρέπει στο μοντέλο να διακόπτει έναν χρήστη εν μέσω πρότασης, να αντιδρά σε οπτικά σήματα χωρίς να ζητηθεί, ή να μιλάει ταυτόχρονα με τον χρήστη για εργασίες όπως η ζωντανή μετάφραση.

Η αρχιτεκτονική παραλείπει τους βαρείς αυτόνομους κωδικοποιητές. Ο ήχος εισάγεται ως δMel χαρακτηριστικά μέσω ενός ελαφριού στρώματος ενσωμάτωσης, οι εικόνες χωρίζονται σε τμήματα 40×40, και όλα τα компоненты είναι συν-εκπαιδευμένα από την αρχή με τον μετασχηματιστή. Ένα ξεχωριστό υπόβαθρο μοντέλο εκτελείται ασύγχρονα, χειρίζεται βαθύτερη σκέψη, κλήσεις εργαλείων και περιήγηση στο διαδίκτυο ενώ το μοντέλο αλληλεπίδρασης παραμένει παρόν στη συζήτηση.

Στις αναφερόμενες μετρήσεις της εταιρείας, το TML-Interaction-Small καταγράφει μια καθυστέρηση λήψης σειράς 0,40 δευτερόλεπτα στο FD-bench V1, σε σύγκριση με 1,18 δευτερόλεπτα για το GPT-Realtime-2.0 στη λειτουργία ελαχίστης σκέψης και 0,57 δευτερόλεπτα για το Gemini-3.1-flash-live. Στο FD-bench V1.5, το οποίο βαθμολογεί την ποιότητα αλληλεπίδρασης σε διακοπές χρηστών, κανάλια, και ομιλία στο υπόβαθρο, το μοντέλο βαθμολογείται με 77,8 έναντι 46,8 για το GPT-Realtime-2.0 ελαχίστης σκέψης και 45,5 για το Gemini-3.1-flash-live στη λειτουργία υψηλής σκέψης. Τα νούμερα είναι αυτοαναφερόμενα.

Μια Μακροχρόνια Αναμενόμενη Πρώτη Αποστολή

Η κυκλοφορία κλείνει ένα μεγάλο χάσμα μεταξύ χρηματοδότησης και προϊόντος. Η Σκέψεις για Μηχανές Εργαστηρίου ιδρύθηκε τον Φεβρουάριο του 2025 και τον Ιούλιο του ίδιου έτους έκλεισε μια γύρα σπόρων 2 δισεκατομμυρίων δολαρίων σε μια αξιολόγηση 12 δισεκατομμυρίων δολαρίων — ευρέως αναφερόμενη ως η μεγαλύτερη γύρα σπόρων στην ιστορία. Η γύρα οδηγήθηκε από την Andreessen Horowitz με τη συμμετοχή της Nvidia, AMD, Cisco, Accel, ServiceNow, και Jane Street. Μέχρι τώρα, το μόνο προϊόν που έχει κυκλοφορήσει η εταιρεία είναι το Tinker, μια API για την εξευγενισμένη εκπαίδευση ανοιχτών μοντέλων που κυκλοφόρησε τον Οκτώβριο του 2025.

Οι ενδιάμεσες μήνες έφεραν τουρμπουλάνς. Οι συνιδρυτές Barret Zoph και Luke Metz έφυγαν τον Ιανουάριο του 2026 για να επιστρέψουν στην OpenAI, με την Murati να ανακοινώνει ότι η εταιρεία είχε “διαχωριστεί” από τον Zoph. Ο Andrew Tulloch έφυγε για τα Superintelligence Labs της Meta μετά από μια αναφερόμενη προσφορά 1 δισεκατομμυρίου δολαρίων από τον Mark Zuckerberg για να αγοράσει την εταιρεία συνολικά, η οποία απορρίφθηκε. Η Meta έχει από τότε προσλάβει πέντε ιδρυτικά μέλη του εργαστηρίου. Η Murati ανταποκρίθηκε προωθώντας τον Soumith Chintala, einen συνδημιουργό του PyTorch, στο ρόλο του CTO. Μια αναφερόμενη γύρα χρηματοδότησης σε μια αξιολόγηση περίπου 50 δισεκατομμυρίων δολαρίων δεν ολοκληρώθηκε μέχρι το τέλος του 2025.

Η ιστορία υπολογισμού κινήθηκε στην αντίθετη κατεύθυνση. Τον Μάρτιο, η Σκέψεις για Μηχανές Εργαστηρίου ανακοίνωσε μια συνεργασία με την Nvidia που καλύπτει μια μη αναφερόμενη επένδυση και την ανάπτυξη τουλάχιστον ενός γιγαβάτ της επόμενης γενιάς Vera Rubin συστημάτων. Το εργαστήριο επέκτεινε επίσης τη σχέση του με τη Google Cloud για να καλύψει την εκπαίδευση μοντέλων frontiera σε υλικό Nvidia GB300.

Τι Να Παρακολουθήσετε

Το μοντέλο αλληλεπίδρασης δεν είναι ακόμη διαθέσιμο σε επιχειρήσεις ή στο κοινό. Η Σκέψεις για Μηχανές Εργαστηρίου λέει ότι μια περιορισμένη προεπισκόπηση έρευνας θα ανοίξει σε επιλεγμένους συνεργάτες τους επόμενους μήνες, με μια ευρύτερη κυκλοφορία αργότερα στο 2026. Η εταιρεία σχεδιάζει επίσης να κυκλοφορήσει μεγαλύτερα μοντέλα αλληλεπίδρασης, σημειώνοντας ότι η τρέχουσα έκδοση 276B παραμέτρων είναι η μικρότερη εκδοχή που μπορεί να εξυπηρετήσει στην απαιτούμενη καθυστέρηση.

Η ανεξάρτητη επαλήθευση των αξιώσεων των μετρήσεων είναι το άμεσο ερώτημα. Το FD-bench είναι ένα από τα λίγα δημόσια μετρήματα που στοχεύουν στην ποιότητα αλληλεπίδρασης, και τα αποτελέσματα της Σκέψεις για Μηχανές Εργαστηρίου δεν έχουν ακόμη αναπαραχθεί από τρίτους υπό ρεαλιστική φόρτωση. Οι δοκιμές προδραστικότητας που εισήγαγε η εταιρεία για οπτικά σήματα, συμπεριλαμβανομένων των προσαρμοσμένων εκδόσεων του RepCount-A, ProactiveVideoQA, και Charades, είναι νέα όργανα χωρίς μια καθιερωμένη βάση.

Η στρατηγική στοίχημα είναι πιο σαφής. Ενώ η OpenAI, η Anthropic, και η Google έχουν περάσει το τελευταίο χρόνο推ώντας τις ικανότητες των αυτόνομων πρακτόρων, η Σκέψεις για Μηχανές Εργαστηρίου στοιχηματίζει ότι ο επόμενος άξονας ανταγωνισμού θα είναι πώς οι άνθρωποι επικοινωνούν με την AI — πιο κοντά σε μια συνεχής συζήτηση παρά σε μια σειρά προτροπών. Το μοντέλο αλληλεπίδρασης ανταγωνίζεται πιο直接ικά τα πραγματικά συστήματα φωνητικής AI που κυκλοφορούν από την OpenAI, τη Google, και μια αυξανόμενη σειρά startups που επικεντρώνονται στη φωνή. Εάν η αρχιτεκτονική επιβιώσει της επαφής με τις παραγωγικές φόρτεις εργασίας — μακρές συνεδρίες, αξιόπιστες συνδέσεις, και οι περιορισμοί ασφαλείας της πραγματικής απόρριψης — είναι το τεστ που η επόμενη προεπισκόπηση θα επιβάλει.

Ο Alex McFarland είναι δημοσιογράφος και συγγραφέας του AI που εξερευνά τις τελευταίες εξελίξεις στην τεχνητή νοημοσύνη. Έχει συνεργαστεί με πολλές startups και εκδόσεις του AI σε όλο τον κόσμο.