Kecerdasan Buatan
Peneliti Kembangkan Model Komputer JL2P untuk Menerjemahkan Naskah Film Menjadi Animasi

Periset di Carnegie Mellon University telah mengembangkan model komputer yang mampu menerjemahkan teks yang menggambarkan gerakan fisik menjadi animasi sederhana yang dihasilkan komputer. Perkembangan baru ini memungkinkan film dan animasi lainnya dibuat langsung dari model komputer yang membaca skrip.
Para ilmuwan telah membuat kemajuan dalam membuat komputer memahami bahasa alami dan menghasilkan pose fisik dari skrip. Model komputer baru ini bisa menjadi penghubung di antara mereka.
Louis-Philippe Morency, seorang profesor di Institut Teknologi Bahasa (LTI), dan Chaitanya Ahuja, Ph.D. siswa, telah menggunakan arsitektur saraf yang disebut Bahasa Bersama-ke-Pose (JL2P). Model JL2P mampu menyatukan kalimat dan gerakan fisik. Ini memungkinkannya untuk mempelajari bagaimana bahasa terhubung dengan tindakan, gerak tubuh, dan gerakan.
"Saya rasa kami masih dalam tahap awal penelitian ini, tetapi dari perspektif pemodelan, kecerdasan buatan, dan teori, ini momen yang sangat menarik," ujar Morency. "Saat ini, kami sedang membahas animasi karakter virtual. Nantinya, hubungan antara bahasa dan gestur ini dapat diterapkan pada robot; kami mungkin bisa memberi tahu robot asisten pribadi apa yang kami inginkan."
“Kami juga akhirnya bisa pergi ke arah lain – menggunakan tautan antara bahasa dan animasi ini sehingga komputer dapat menggambarkan apa yang terjadi dalam video,” tambahnya.
Model Joint Language-to-Pose akan dipresentasikan oleh Ahuja pada 19 September di Konferensi Internasional tentang Visi 3D. Konferensi itu akan berlangsung di Kota Quebec, Kanada.
Model JL2P dibuat dengan pendekatan pembelajaran kurikulum. Langkah penting pertama adalah agar model mempelajari urutan yang pendek dan mudah. Itu akan menjadi sesuatu seperti "Seseorang berjalan ke depan." Kemudian beralih ke urutan yang lebih panjang dan lebih keras seperti "Seseorang melangkah maju, lalu berbalik dan melangkah maju lagi," atau "Seseorang melompati rintangan sambil berlari."
Ketika model menggunakan urutan, terlihat pada kata kerja dan kata keterangan. Ini menggambarkan aksi dan kecepatan/percepatan aksi. Kemudian, melihat kata benda dan kata sifat yang menggambarkan lokasi dan arah. Menurut Ahuja, tujuan akhir model ini adalah menganimasikan urutan kompleks dengan beberapa tindakan yang terjadi secara bersamaan atau berurutan.
Sampai sekarang, animasinya terbatas pada figur tongkat, tetapi para ilmuwan akan terus mengembangkan modelnya. Salah satu komplikasi yang muncul adalah menurut Morency, banyak hal yang terjadi dalam waktu bersamaan. Beberapa di antaranya bahkan terjadi dalam urutan sederhana.
“Sinkronisasi antar bagian tubuh sangat penting,” kata Morency. “Setiap kali Anda menggerakkan kaki, Anda juga menggerakkan lengan, badan, dan mungkin kepala. Animasi tubuh perlu mengoordinasikan komponen yang berbeda ini, sementara pada saat yang sama mencapai tindakan yang kompleks. Membawa narasi bahasa dalam lingkungan animasi yang kompleks ini menantang dan mengasyikkan. Ini adalah jalan menuju pemahaman yang lebih baik tentang ucapan dan gerak tubuh.”
Jika model Joint Language-to-Pose mampu berkembang ke titik di mana ia dapat membuat animasi dan tindakan kompleks berdasarkan bahasa, kemungkinannya sangat besar. Tidak hanya dapat digunakan di bidang-bidang seperti film dan animasi, tetapi juga akan membantu perkembangan dalam memahami ucapan dan gerak tubuh.
Beralih ke kecerdasan buatan, model JL2P ini bisa digunakan pada robot. Misalnya, robot mungkin dapat dikendalikan dan diberi tahu apa yang harus dilakukan, dan mereka akan dapat memahami bahasa dan meresponsnya.
Perkembangan baru ini akan memengaruhi banyak bidang berbeda, dan model akan terus semakin mampu memahami bahasa yang rumit.