Kecerdasan buatan

Apakah Model Dunia AI Benar-Benar Dapat Memahami Hukum Fisik?

Published November 26, 2024

Updated April 3, 2026

Martin Anderson

Image produced by ChatGPT-4o, depicting diverse objects exhibiting aberrant physical properties. The prompt was developed conversationally

Harapan besar untuk model bahasa-visi AI adalah bahwa mereka suatu hari nanti akan menjadi mampu memiliki otonomi dan fleksibilitas yang lebih besar, menggabungkan prinsip-prinsip hukum fisik dengan cara yang sama seperti kita mengembangkan pemahaman bawaan tentang prinsip-prinsip ini melalui pengalaman awal.

Misalnya, permainan bola anak-anak cenderung mengembangkan pemahaman tentang kinetika gerak, dan efek berat dan tekstur permukaan pada trajektori. Demikian pula, interaksi dengan skenario umum seperti mandi, tumpahan minuman, lautan, kolam renang, dan berbagai badan cair lainnya akan memberikan pemahaman yang serbaguna dan dapat diskalakan tentang cara cairan berperilaku di bawah gravitasi.

Bahkan postulat fenomena yang kurang umum – seperti pembakaran, ledakan, dan distribusi berat arsitektur di bawah tekanan – diserap secara tidak sadar melalui paparan program TV dan film, atau video media sosial.

Saat kita mempelajari prinsip-prinsip di balik sistem ini, pada tingkat akademis, kita hanya “meretrofit” model mental kita yang intuitif (tetapi tidak terinformasi) tentang mereka.

Masters of One

Saat ini, sebagian besar model AI lebih “terspesialisasi”, dan banyak di antaranya either diperhalus atau dilatih dari awal pada dataset gambar atau video yang cukup spesifik untuk kasus penggunaan tertentu, bukan dirancang untuk mengembangkan pemahaman umum tentang hukum yang mengatur.

Lainnya dapat menampilkan penampilan pemahaman hukum fisik; tetapi mereka mungkin sebenarnya mereproduksi sampel dari data pelatihan mereka, bukan benar-benar memahami dasar-dasar area seperti fisika gerak dengan cara yang dapat menghasilkan depiksi yang benar-benar baru (dan ilmiah) dari prompt pengguna.

Pada saat yang genting ini dalam produkisasi dan komersialisasi sistem AI generatif, terserah kepada kita, dan pengawasan investor, untuk membedakan pemasaran yang dibuat dari model AI baru dari kenyataan keterbatasan mereka.

Salah satu makalah November yang paling menarik, dipimpin oleh Bytedance Research, menangani masalah ini, mengeksplorasi kesenjangan antara kemampuan yang tampak dan kemampuan nyata dari model generatif “serba guna” seperti Sora.

Karya tersebut menyimpulkan bahwa pada keadaan seni saat ini, output yang dihasilkan dari model seperti Sora lebih mungkin mereproduksi contoh dari data pelatihan mereka daripada benar-benar menunjukkan pemahaman penuh tentang kendala fisik yang mengoperasikan di dunia nyata.

Makalah tersebut menyatakan*:

‘[Model] ini dapat dengan mudah memihak pada “penipuan” contoh dari set pelatihan, menyebabkan mereka menggeneralisasi dengan cara “berdasarkan kasus” di bawah kondisi tertentu. Fenomena ini, juga diamati dalam model bahasa besar, menggambarkan kecenderungan model untuk merujuk pada kasus pelatihan yang serupa saat menyelesaikan tugas baru.

‘Misalnya, pertimbangkan model video yang dilatih pada data bola bergerak dengan kecepatan tinggi dalam gerak lurus seragam. Jika augmentasi data dilakukan dengan membalik video secara horizontal, sehingga memperkenalkan gerak berlawanan, model mungkin menghasilkan skenario di mana bola berkecepatan rendah membalik arah setelah bingkai awal, meskipun perilaku ini tidak secara fisik benar.’

Kita akan melihat makalah tersebut – berjudul Evaluasi Model Dunia dengan LLM untuk Pengambilan Keputusan – sebentar lagi. Tetapi pertama-tama, mari kita lihat latar belakang untuk keterbatasan yang tampak ini.

Remembrance of Things Past

Tanpa generalisasi, model AI terlatih adalah sedikit lebih dari sekedar spreadsheet mahal yang berisi referensi ke bagian dari data pelatihannya: temukan istilah pencarian yang tepat, dan Anda dapat memanggil contoh dari data tersebut.

Dalam skenario tersebut, model secara efektif bertindak sebagai ‘mesin pencari neural’, karena tidak dapat menghasilkan interpretasi abstrak atau ‘kreatif’ dari output yang diinginkan, tetapi malah mereplikasi beberapa variasi kecil dari data yang dilihat selama proses pelatihan.

Ini dikenal sebagai memorization – masalah kontroversial yang muncul karena model AI yang benar-benar fleksibel dan interpretatif cenderung kekurangan detail, sedangkan model yang sangat detail cenderung kekurangan orisinalitas dan fleksibilitas.

Kapasitas model yang terkena memorization untuk mereproduksi data pelatihan adalah hambatan potensial, dalam kasus di mana pembuat model tidak memiliki hak untuk menggunakan data tersebut; dan di mana manfaat dari data tersebut dapat dibuktikan melalui sejumlah metode ekstraksi.

Karena memorization, jejak data non-otorisasi dapat bertahan, berantai, melalui beberapa sistem pelatihan, seperti tanda air yang tidak diinginkan dan tidak disengaja – bahkan dalam proyek di mana praktisi pembelajaran mesin telah berhati-hati untuk memastikan bahwa data ‘aman’ digunakan.

Model Dunia

Namun, masalah utama penggunaan memorization adalah bahwa cenderung menghasilkan ilusi kecerdasan, atau menunjukkan bahwa model AI telah menggeneralisasi hukum atau domain fundamental, di mana sebenarnya itu adalah volume data yang diingat yang memberikan ilusi ini (yaitu, model memiliki banyak contoh data potensial untuk dipilih sehingga sulit bagi manusia untuk menentukan apakah itu mengulangi konten yang dipelajari atau apakah memiliki pemahaman abstrak tentang konsep yang terkait dengan generasi).

Masalah ini memiliki konsekuensi untuk minat yang tumbuh dalam model dunia – prospek sistem AI yang sangat beragam dan mahal yang menggabungkan hukum yang diketahui, dan kaya akan penjelajahan.

Model dunia sangat menarik dalam ruang gambar dan video generatif. Pada 2023, RunwayML memulai inisiatif penelitian untuk pengembangan dan kelayakan model seperti itu; DeepMind baru-baru ini menghire salah satu pendiri model video generatif Sora yang terkenal untuk bekerja pada model seperti itu; dan perusahaan rintisan seperti Higgsfield berinvestasi secara signifikan dalam model dunia untuk sintesis gambar dan video.

Hard Combinations

Salah satu janji dari pengembangan baru dalam sistem AI generatif video adalah prospek bahwa mereka dapat mempelajari hukum fisik dasar, seperti gerak, kinematika manusia (seperti karakteristik gaya berjalan), dinamika fluida, dan fenomena fisik lain yang paling tidak secara visual familiar bagi manusia.

Jika AI generatif dapat mencapai tonggak ini, maka dapat menjadi mampu menghasilkan efek visual yang sangat realistis yang menggambarkan ledakan, banjir, dan peristiwa tabrakan yang masuk akal di seluruh jenis objek.

Jika, di sisi lain, sistem AI hanya telah dilatih pada ribuan (atau ratusan ribu) video yang menggambarkan peristiwa tersebut, maka dapat mampu mereproduksi data pelatihan dengan cukup meyakinkan ketika dilatih pada data titik yang serupa dengan kueri target pengguna; namun gagal jika kueri menggabungkan terlalu banyak konsep yang, dalam kombinasi seperti itu, tidak diwakili sama sekali dalam data.

Lebih lanjut, keterbatasan ini tidak akan segera jelas, sampai sistem dipaksa dengan kombinasi yang menantang dari jenis ini.

Ini berarti bahwa sistem generatif baru mungkin mampu menghasilkan konten video viral yang, meskipun mengesankan, dapat menciptakan kesan palsu tentang kemampuan dan kedalaman pemahaman sistem, karena tugas yang diwakili tidak merupakan tantangan nyata bagi sistem.

Misalnya, peristiwa yang relatif umum dan tersebar luas, seperti ‘sebuah bangunan dihancurkan’, mungkin ada di beberapa video dalam dataset yang digunakan untuk melatih model yang seharusnya memiliki beberapa pemahaman tentang fisika. Oleh karena itu, model dapat mempresumsi generalisasi konsep ini dengan baik, dan bahkan menghasilkan output yang benar-benar baru dalam parameter yang dipelajari dari video yang melimpah.

Ini adalah contoh dalam-distribusi, di mana dataset berisi banyak contoh berguna bagi sistem AI untuk dipelajari.

Namun, jika seseorang meminta contoh yang lebih aneh atau spekulatif, seperti ‘Menara Eiffel diledakkan oleh penjajah alien’, model akan diharuskan menggabungkan domain yang beragam seperti ‘sifat metalurgis’, ‘karakteristik ledakan’, ‘gravitasi’, ‘perlawanan angin’ – dan ‘pesawat luar angkasa alien’.

Ini adalah contoh out-of-distribution (OOD), yang menggabungkan banyak konsep yang terkait sehingga sistem kemungkinan besar akan gagal menghasilkan contoh yang meyakinkan, atau akan beralih ke contoh semantik terdekat yang dilatih – bahkan jika contoh tersebut tidak mematuhi kueri pengguna.

Kecuali bahwa dataset sumber model berisi efek visual CGI gaya Hollywood yang menggambarkan peristiwa yang sama atau serupa, maka penggambaran seperti itu akan memerlukan bahwa model mencapai pemahaman yang baik dan luwes tentang hukum fisik.

Physical Restraints

Makalah baru – kolaborasi antara Bytedance, Tsinghua University, dan Technion – menunjukkan bahwa model seperti Sora tidak hanya tidak benar-benar menginternalisasi hukum fisik deterministik dengan cara ini, tetapi bahwa penskalaan data (pendekatan umum selama 18 bulan terakhir) tampaknya, dalam sebagian besar kasus, tidak menghasilkan perbaikan nyata dalam hal ini.

Makalah tersebut mengeksplorasi tidak hanya keterbatasan ekstrapolasi hukum fisik tertentu – seperti perilaku objek dalam gerak ketika mereka bertabrakan, atau ketika jalur mereka terhalang – tetapi juga kemampuan model untuk generalisasi kombinatorial – contoh di mana representasi dari dua prinsip fisik yang berbeda digabungkan menjadi satu output generatif.

Ringkasan video dari makalah baru. Sumber: https://x.com/bingyikang/status/1853635009611219019

Tiga hukum fisik yang dipilih untuk dipelajari oleh peneliti adalah gerak parabolik; gerak lurus seragam; dan tumbukan elastis sempurna.

Seperti yang dapat dilihat di video di atas, temuan menunjukkan bahwa model seperti Sora tidak benar-benar menginternalisasi hukum fisik, tetapi cenderung mereproduksi data pelatihan.

Lebih lanjut, penulis menemukan bahwa aspek seperti warna dan bentuk menjadi sangat terkait pada saat inferensi sehingga bola yang dihasilkan kemungkinan besar akan berubah menjadi persegi, karena gerak serupa dalam contoh dataset menampilkan persegi dan bukan bola (lihat contoh dalam video yang disematkan di atas).

Makalah tersebut menyatakan*:

‘[Temuan] kami menunjukkan bahwa skala saja tidak cukup untuk model generatif video untuk menemukan hukum fisik fundamental, meskipun peranannya dalam kesuksesan Sora yang lebih luas…

‘…[Temuan] menunjukkan bahwa skala saja tidak dapat menyelesaikan masalah OOD, meskipun meningkatkan kinerja dalam skenario lain.

‘Analisis kami yang mendalam menunjukkan bahwa generalisasi model video lebih bergantung pada merujuk contoh pelatihan yang serupa daripada mempelajari aturan universal. Kami mengamati urutan prioritas warna > ukuran > kecepatan > bentuk dalam perilaku “berdasarkan kasus” ini.

‘[Studi] kami menunjukkan bahwa skala yang naif tidak cukup untuk model generatif video untuk menemukan hukum fisik fundamental.’

Ditanya apakah tim peneliti telah menemukan solusi untuk masalah ini, salah satu penulis makalah mengomentari:

‘Sayangnya, kami belum. Sebenarnya, ini mungkin misi dari seluruh komunitas AI.’

Metode dan Data

Peneliti menggunakan Variational Autoencoder (VAE) dan DiT arsitektur untuk menghasilkan sampel video. Dalam setup ini, representasi laten yang dikompresi yang dihasilkan oleh VAE bekerja bersama dengan model DiT dari proses denoising.

Video dilatih lebih than Stable Diffusion V1.5-VAE. Skema ini dibiarkan secara fundamental tidak berubah, dengan hanya perbaikan arsitektur akhir:

‘[Kami mempertahankan] sebagian besar konvolusi 2D asli, normalisasi grup, dan mekanisme perhatian pada dimensi spasial.

‘Untuk mengembangkan struktur ini menjadi auto-encoder spasial-waktu, kami mengubah beberapa blok downsampling 2D terakhir dari encoder dan beberapa blok upsampling 2D awal dari decoder menjadi 3D, dan menggunakan beberapa lapisan 1D tambahan untuk meningkatkan pemodelan temporal.’

Untuk memungkinkan pemodelan video, VAE yang dimodifikasi dilatih bersama dengan data gambar dan video HQ, dengan komponen 2D Generative Adversarial Network (GAN) asli dari arsitektur SD1.5 yang diperluas untuk 3D.

Dataset gambar yang digunakan adalah sumber asli Stable Diffusion, LAION-Aesthetics, dengan filtering, serta DataComp. Untuk data video, subset dipilih dari Vimeo-90K, Panda-70m, dan HDVG dataset.

Data dilatih selama satu juta langkah, dengan random resized crop dan random horizontal flip diterapkan sebagai proses augmentasi data.

Flipping Out

Seperti yang disebutkan di atas, proses augmentasi data flip horizontal acak dapat menjadi kewajiban dalam melatih sistem yang dirancang untuk menghasilkan gerak yang autentik. Ini karena output dari model terlatih mungkin mempertimbangkan kedua arah objek, dan menyebabkan perubahan acak saat mencoba menegosiasikan data yang bertentangan ini (lihat video yang disematkan di atas).

Di sisi lain, jika seseorang mematikan flip horizontal off, model kemungkinan besar akan menghasilkan output yang hanya mematuhi satu arah yang dipelajari dari data pelatihan.

Jadi tidak ada solusi yang mudah untuk masalah ini, kecuali bahwa sistem benar-benar mengasimilasi semua kemungkinan gerak dari versi asli dan flipped.

Tests

Untuk set eksperimen pertama, peneliti merumuskan simulator 2D untuk menghasilkan video gerak objek dan tabrakan yang sesuai dengan hukum mekanika klasik, yang memberikan volume dan dataset yang dikontrol yang tidak termasuk ketidakjelasan video dunia nyata, untuk evaluasi model. Mesin game fisika Box2D digunakan untuk membuat video ini.