Connect with us

Düşünce Liderleri

Robotlara Hareket Ettirmeyi Öğrettik. Şimdi Onlara Yaşamak Öğretiyoruz

mm

Modern robotik, hareketin artık ana zorluk olmaktan çıktiği bir noktaya ulaştı – makineler already navigasyon, kavrama ve uzayda etkileyici bir doğrulukla çalışabiliyorlar. Ancak onları gerçekten “yaşamak” ve gerçek dünyada çalışmak için yetkilendirmek hala çözülmemiş bir sorun.

Bu süreçte, “omurilik” olarak adlandırılabilecek şey kilit rolü oynuyor: temel reaksiyonlar, davranış ve çevre ile etkileşimden sorumlu sistem.

Robotların evrimine bu lens aracılığıyla baktığınızda, bu aşamaların dizisinin – her adımda sistem yeni bir şey öğrenir, basit hareketten kompleks, bağlam bilinci içeren eylemlere – insan gelişimine çok benzediği açıkça görülüyor.

Ve precisemente bu evrim – “boş” donanımından anlamlı davranışa – içerisinde bugün fiziksel AI’de meydana gelen ana değişim正在 burada.

İlginç bir şekilde daha derinden öğrenmek.

Robotiklerin temeli: nadiren tartışılan bir aşama

Pratik olarak bir robot nedir? Başlangıçta evrensel bir platform olarak yaratılan fiziksel bir cihazdır. Aslında, bu bir “boşluk”tur ve sonra belirli görevlere uyarlanması, belirli bir ortamda çalışması için eğitilmesi ve gerekli eylemleri yapması için öğretmesi gerekir.

Günlük senaryolardan öteye geçip daha gerçekçi near-future uygulamalarını düşünürsek, robotların tam olarak benimsenmesinin主要 olarak endüstriyel ve potansiyel olarak tehlikeli ortamlarda olacağı açıkça görülüyor. Bu, onların davranışları, sağlamlığı ve eğitim kalitesi için önemli ölçüde daha yüksek gereksinimlere işaret ediyor.

Süreç, cihazın kendisinin inşa edilmesiyle başlar. Bir robot, aktüatörler, motorlar, sensörler, kameralar, LiDAR’lar dahil olmak üzere birden fazla bileşenden oluşur. İnsansı, tekerlekli, bipedal veya quadrupedal olabilir – form faktörü ikincil önemdedir. Önemli olan, bu aşamada işlevsel ancak hala “boş” bir cihazla sonuçlanmasıdır.

Sonraki aşama, davranışının temelini oluşturan bir temel model kurmaktır. Geniş bir sentido, “model” tüm işlevsel kontrol katmanını içerir. Temel yeteneklerden sorumludur: dengesini koruma, ayakta durma ve hareket, A noktasından B noktasına navigasyon, engellerden kaçınma, çevreyi hasar vermemek ve insanlarla güvenli bir şekilde etkileşim kurmak.

Burada pekiştirme öğrenimi devreye giriyor. Bu sistemlerde milyarlarca simülasyon çalıştırılıyor. Karmaşık ortamlarda “öğrenen” robotların videolarını sık sık görüyoruz: çoğunun düşmesi, dengesini kaybetmesi veya görevi tamamlamaması ancak ayakta kalanlar ve hareket etmeye devam edenler ilerlemeyi başaranlardır.

Bu, pekiştirme öğreniminin özüdür: başarılı davranışın seçilmesi. Başarılı olanların algoritmaları, sonraki iterasyonların temelini oluşturur. Sonuç olarak, inanılmaz sayıda çalıştırmanın ardından, engelleri güvenle idare edebilen bir model ortaya çıkar. Bu algoritma daha sonra fiziksel cihaza aktarılır.

Bu, temelli ancak kritik bir aşamadır – genellikle bu noktada bilgisayar görüşü gerektirmez, bu gerekli değildir. Burada temel fizik ve mekanikle ilgileniyoruz, bunlar sistemden başlangıçta gömülmelidir.

Robotların dünyayı “hissetmeye” başlaması

Şimdi already “donanım”a sahipsiniz – bir robot ve temel model kurulu: ayakta durabilir, yürüyebilir ve dengesini koruyabilir. Ancak bu, gerçek dünya görevleri için yeterli mi, örneğin endüstriyel ortamlarda? Açıkça değil.

Sonraki seviye burada başlar. Sensörleri entegre ediyoruz ve modeli duyusal girdilere göre davranması için eğitiyoruz. Yeni bir temel beceri katmanı ortaya çıkıyor – artık basit hareketten çok daha kompleks.

İnsan gelişimi ile bir analoji kullanmak faydalıdır. İlk aşamada, sistemi yaklaşık olarak bir yaşındaki bir çocuğun seviyesine getirdik: ayakta durabilir, ilk adımlarını atabilir ve düşmeden dengesini koruyabilir. Sonraki adım daha çok sekiz yaşındaki bir çocuğun seviyesine benzer.

Bu yaşta, bir çocuk aktif olarak “duyularını” kullanır: riski algılayabilir ve eylemlerinin sonuçlarını değerlendirebilir. Bir şeyin sıcak olup olmadığını veya çok soğuk bir şeyi ağzına koymamasını anlar. Bir masaya tırmanabilir, bisiklete binebilir ve nesnelerle etkileşime girebilir. Nesneleri kavrayabilir, taşıyabilir, manipüle edebilir ve temel selbst bakım eylemlerini gerçekleştirebilir.

Bu aşamaya ön eğitim diyoruz. Ve bu noktada, simülasyonlar alone artık yeterli değil.

Evet, bazı senaryolar hala etkili bir şekilde modelleştirilebilir: bir bardak nasıl alınır veya bir pil nasıl değiştirilir, örneğin, bir bileşeni çıkarmak, onu şarj etmek, başka birini almak ve geri yüklemek.

Ancak genel olarak, dengenin değiştiği görülüyor: eğitimın yaklaşık %80’i hala simülasyonda gerçekleşebilir, ancak yaklaşık %20’lik veri gerçek dünyadan gelmelidir. Ve bu, egosentrik verilerin tartışmaya başladığımız noktadır.

Egosentrik veri olarak çevre anlaşmasının temeli

Bugün, egosentrik veri küresel olarak büyük ölçekte toplanıyor – çünküWithout bunu, temel mekanikten anlamlı gerçek dünya ile etkileşime geçmek mümkün değil. Bir iş arkadaşı, bir araba tamirhane ağı işletiyor ve çalışanlar tüm araba onarım sürecini kaydetmek için başa takılan kameralar kullanıyor. New York’ta bir bina sahibi benzer bir yaklaşım uyguladı: temizlik personeli, alanları süpürürken ve hijyenik alanları korurken alnına takılan kameralarla kayıt yapıyor.

Zamanla, bu kayıtlar bağımsız bir ürün haline geliyor – paketleniyor ve satılıyor. Ana değerleri, ön eğitim aşaması için uygun olmalarında yatıyor, çevrelerin ve eylem dizilerinin temel bir anlayışını oluşturmaya yardımcı oluyorlar.

Örneğin, Keymakr gibi bir hizmet vardı, burada ekip, basit senaryolardan kompleks olanlara kadar – bulaşık yıkamadan daha kompleks olanlara – egosentrik veri koleksiyonları oluşturdu.

Neden bu så önemlidir? Çünkü böyle bir veri, saf simülasyonun sağlayamadığı şeyi sağlar – gerçek dünya ortamlarının çeşitliliği. Ofisler, araba tamirhaneleri, inşaat siteleri, restoranlar ve oteller – her biri kendi bağlamını, senaryolarını ve nüanslarını ekler. Birlikte, bir sistem sadece “görmekle” kalmayıp, gerçek dünyanın dinamiklerini dần dần anlamaya başladığı bir veri seti oluşturur.

Bu aşamada, amaç artık bir robota belirli bir eylemi mükemmel bir şekilde gerçekleştirmeyi öğretmek değil. Daha çok, önce çevresinde yönlendirmesini sağlamak önemlidir.

Bugün, robotik alanında çalışan neredeyse tüm şirketler – Tesla’dan Unitree Robotics ve Figure AI’ye kadar – precisemente bu aşamaya odaklanıyorlar. Hedefleri, bir temel model oluşturmak, ilk olarak bir “sekiz yaşındaki çocuk” yeteneklerine benzeyen ve daha sonra “on iki yaşındaki”ye doğru ilerleyen yeteneklere sahip.

Bu da bizim Introspector‘da odaklandığımız şey – ön eğitimin en kritik aşamasında gerekli verilerin hazırlanması.

Eğitim son aşaması: evrensellik nerede biter, uzmanlaşma nerede başlar

Bir robota ön eğitimi tamamlamış ve temel bir dünya anlayışına ve bir ergeninkine benzer beceri setine sahip olduğunu hayal edin. Ancak bu, gerçek iş kullanım durumları için hala yeterli değil. Şirketler sadece “genel amaçlı” bir robota ihtiyaç duymuyor – bir uzmana ihtiyaçları var.

Örneğin, otomotiv üretimini ele alalım. Bazı görevler hala insanların duyarlılık, hassasiyet ve sürekli görsel kontrol gerektirdiği için insanlar tarafından gerçekleştiriliyor. Geleneksel otomasyon burada mücadele ediyor. Endüstriyel manipülatörler, tekrarlayan, katı görevlerde – “al, taşı, yerleştirmek” – excelling. Ancak, adaptasyon, basınç algılama ve gerçek zamanlı ayarlamalar gerektiren görevler hala insan alanındadır.

Burada yeni bir talep ortaya çıkıyor: bir robota, bir üretim hattında bir uzman gibi belirli bir işlemi gerçekleştirmeyi öğretmek. Diğer bir deyişle, temel eğitimin ardından bir sonraki seviye geliyor: belirli bir meslek ve senaryo için eğitim.

Bu noktada, pratik bir soru ortaya çıkıyor: bu düzeyde eğitim için tam olarak ne gereklidir? Bir robota insan performansı tam olarak taklit etmesini istiyorsak, insan davranışını mümkün olduğunca precisa yakalamamız gerekir. Örneğin, fabrika zeminindeki uzman, görevi nasıl gerçekleştirdiğini kaydedecek bir kamera takmalıdır.

Robotların insan dünyasında “yaşamak” için ne gerektiği

Bir kamera alone yeterli değil. Sadece görsel perspektifi değil, aynı zamanda hareketin fiziğini de yakalamak gerekli. Bu, nesnelerle etkileşimi ölçen basınç, uygulanan kuvvet ve doğasını ölçen özel eldivenlerle yapılan bir işlemdir. Bu özellikle önemli çünkü nesneler kendileri önemli ölçüde farklılık gösterebilir. Örneğin, contalar araba modeline göre farklı esneklikte olabilir, bu da görevin nasıl gerçekleştirildiğini doğrudan etkiler.

Sonraki adım kinematik izleme. Görsel veya sensör tabanlı işaretler, bilekler, dirsekler ve bazen omuzlara yerleştirilir. Bunlar, sistem videoya göre el pozisyonunu uzayda izlemesine olanak tanıyan bileklikler gibi tanınabilir işaretler (QR kodları gibi) içerebilir. Ek sensörler, örneğin jiroskoplar, eklem hareketlerini yakalamak için kullanılır.

Son hedef, hareket mekaniklerini tamamen yeniden oluşturmak: omuz nasıl hareket eder, dirsek nasıl bükülür, bilek nasıl döner. Tüm bunlar, sonraki aşama – post-eğitim için – çok önemli hale geliyor.

Ön eğitimde masih kısmen simülasyona güvenebiliyorken, bu aşamada artık çalışmıyor. Bu “son mil” neredeyse doğru bir şekilde modellemek imkansızdır. Örneğin, bir şefin hamuru nasıl açtığını tam olarak simüle edemezsiniz – uygulanan kuvvet, basınç nasıl dağıtılır, malzeme nasıl hissedilir.

Bu nedenle, post-eğitimde neredeyse tüm veri gerçek dünyadan gelmelidir. Ve bu, ana zorluğun pratik alana kaydığı yerdir – nasıl bu verileri gerçeklikte elde edeceğimiz. Bu düzeyde egosentrik verilerin toplanması karmaşık, çok adımlı bir işlemdir ve ortamlara erişim, uzman ekipman, uzman işçiler ve sonraki veri hazırlama katılımını içerir.

Teoriden öte, bu, robotların真正 olarak “yaşamlarını” başladıkları yer – bu süreci organize etmeyi, endüstriler genelinde ekiplerin karşılaştığı kısıtlamaları aşmayı ve bu tür veri kümelerini büyük ölçekte etiketlemeyi başardığımız yer. Bu, veri etiketleme ve hazırlama sırasında ortaya çıkan tüm zorlukları daha yakından inceleyeceğimiz bir sonraki bölümde ele alınacaktır.

Michael Abramov, Introspector'un kurucusu ve CEO'su olarak, 15+ yıllık yazılım mühendisliği ve bilgisayar vizyonu AI sistemleri deneyimini, işletme sınıfı etiketleme araçları oluşturmaya getiriyor.

Michael kariyerine bir yazılım mühendisi ve Ar-Ge müdürü olarak başladı, ölçeklenebilir veri sistemleri oluşturdu ve çok işlevli mühendislik ekiplerini yönetti. 2025 yılına kadar, Keymakr adlı bir veri etiketleme hizmeti şirketinin CEO'su olarak görev yaptı, burada insan-çevrimiçi iş akışları, gelişmiş QA sistemleri ve büyük ölçekli bilgisayar vizyonu ve otonom veri ihtiyaçlarını desteklemek için özel araçlar geliştirdi.

Bilgisayar Bilimi alanında lisans derecesine ve mühendislik ve yaratıcı sanatlar alanında geçmişe sahip, bu da zor sorunları çözmeye çok disiplinli bir lens getiriyor. Michael, teknoloji inovasyonu, stratejik ürün liderliği ve gerçek dünya etkisinin kesişiminde yaşıyor, otonom sistemlerin ve akıllı otomasyonun nächsten sınırını ileriye taşıyor.