Yapay Zeka
Araştırmacılar Film Senaryolarını Animasyonlara Çevirmek İçin JL2P Bilgisayar Modeli Geliştiriyor

Araştırmacılar Carnegie Mellon University fiziksel hareketleri açıklayan metinleri basit bilgisayar yapımı animasyonlara çevirebilen bir bilgisayar modeli geliştirdiler. Bu yeni gelişmeler, filmlerin ve diğer animasyonların doğrudan senaryoları okuyan bir bilgisayar modelinden oluşturulmasını mümkün kılabilir.
Bilim adamları, bilgisayarların hem doğal dili anlamasını hem de yazıdan fiziksel pozlar oluşturmasını sağlama konusunda ilerleme kaydediyor. Bu yeni bilgisayar modeli, aralarındaki bağlantı olabilir.
Doçent Louis-Philippe Morency, Dil Teknolojileri Enstitüsü (LTI) ve Chaitanya Ahuja, bir LTI Ph.D. öğrenci, adı verilen bir sinir mimarisi kullanıyor. Ortak Dil-Poz (JL2P). JL2P modeli, cümleleri ve fiziksel hareketleri birlikte gömme yeteneğine sahiptir. Bu, dilin eylem, jest ve hareketlerle nasıl bağlantılı olduğunu öğrenmesini sağlar.
Morency, "Sanırım bu araştırmanın erken bir aşamasındayız, ancak modelleme, yapay zeka ve teori açısından çok heyecan verici bir an," dedi. "Şu anda sanal karakterleri canlandırmaktan bahsediyoruz. Sonunda, dil ve jestler arasındaki bu bağlantı robotlara da uygulanabilir; kişisel asistan robotumuza ne yapmasını istediğimizi kolayca söyleyebiliriz."
"Sonunda diğer yoldan da gidebiliriz - dil ve animasyon arasındaki bu bağlantıyı kullanarak bir bilgisayar bir videoda neler olduğunu açıklayabilir," diye ekledi.
Ortak Dil-Poz modeli, 19 Eylül'de Uluslararası 3D Görme Konferansı'nda Ahuja tarafından sunulacak. Bu konferans Kanada'nın Quebec şehrinde gerçekleşecek.
JL2P modeli, bir müfredat-öğrenme yaklaşımı tarafından oluşturulmuştur. İlk önemli adım, modelin kısa, kolay dizileri öğrenmesiydi. Bu, "Bir kişi ileri doğru yürür" gibi bir şey olurdu. Daha sonra “Biri bir adım atıyor, sonra dönüyor ve tekrar ileri adım atıyor” veya “Bir kişi koşarken bir engelin üzerinden atlıyor” gibi daha uzun ve daha zor sekanslara geçti.
Model dizileri kullanırken fiillere ve zarflara bakar. Bunlar, eylemi ve eylemin hızını/hızlanmasını tanımlar. Daha sonra konumları ve yönleri tanımlayan isim ve sıfatlara bakar. Ahuja'ya göre, modelin nihai hedefi, aynı anda veya sırayla gerçekleşen çoklu eylemlerle karmaşık dizileri canlandırmak.
Şu an itibariyle animasyonlar çöp figürlerle sınırlı ama bilim adamları modeli geliştirmeye devam edecekler. Ortaya çıkan zorluklardan biri, Morency'ye göre birçok şeyin aynı anda oluyor olmasıdır. Hatta bazıları basit sıralar halinde oluyor.
Morency, "Vücut bölümleri arasındaki senkronizasyon çok önemlidir" dedi. “Bacaklarınızı her hareket ettirdiğinizde, aynı zamanda kollarınızı, gövdenizi ve muhtemelen başınızı da hareket ettirirsiniz. Vücut animasyonlarının bu farklı bileşenleri koordine ederken aynı zamanda karmaşık eylemler gerçekleştirmesi gerekir. Bu karmaşık animasyon ortamına dil anlatımını getirmek hem zorlu hem de heyecan verici. Bu, konuşma ve jestlerin daha iyi anlaşılmasına giden bir yoldur.”
Ortak Dil-Poz modeli, dile dayalı karmaşık animasyonlar ve eylemler oluşturabileceği bir noktaya kadar gelişebilirse, olasılıklar çok büyüktür. Sadece film ve animasyon gibi alanlarda kullanılamayacak, aynı zamanda konuşma ve mimikleri anlama konusunda da gelişmelere yol açacaktır.
Yapay zekaya dönersek, bu JL2P modeli robotlar üzerinde kullanılabilir. Örneğin, robotlar kontrol edilebilir ve ne yapmaları gerektiği söylenebilir ve onlar da dili anlayabilir ve buna göre tepki verebilir.
Bu yeni gelişmeler birçok farklı alanı etkileyecek ve model, karmaşık dili anlama konusunda daha yetenekli olmaya devam edecektir.