Terhubung dengan kami

Kecerdasan Buatan

Bisakah Model Dunia AI Benar-benar Memahami Hukum Fisika?

mm

Diterbitkan

 on

Gambar yang dihasilkan oleh ChatGPT-4o, menggambarkan berbagai objek yang menunjukkan sifat fisik yang tidak normal. Prompt dikembangkan secara percakapan

Harapan besar bagi model AI bahasa penglihatan adalah bahwa suatu hari nanti model tersebut akan mampu memiliki otonomi dan fleksibilitas yang lebih besar, menggabungkan prinsip-prinsip hukum fisika dengan cara yang sama seperti kita mengembangkan pemahaman bawaan tentang prinsip-prinsip ini melalui pengalaman awal.

Misalnya saja, permainan bola anak-anak cenderung berkembang pemahaman tentang kinetika gerak, dan pengaruh berat dan tekstur permukaan pada lintasan. Demikian pula, interaksi dengan skenario umum seperti bak mandi, minuman yang tumpah, laut, kolam renang, dan berbagai benda cair lainnya akan menanamkan dalam diri kita pemahaman yang serbaguna dan terukur tentang cara benda cair berperilaku di bawah gravitasi.

Bahkan postulat fenomena yang kurang umum – seperti pembakaran, ledakan, dan distribusi berat arsitektur di bawah tekanan – secara tidak sadar diserap melalui paparan program TV dan film, atau video media sosial.

Pada saat kita mempelajari prinsip-prinsip di balik sistem ini, pada tingkat akademis, kita hanya sekadar 'melengkapi' model mental intuitif (namun tanpa informasi) kita tentang sistem tersebut.

Master Satu

Saat ini, sebagian besar model AI, sebaliknya, lebih 'terspesialisasi', dan banyak di antaranya yang disetel dengan baik atau dilatih dari awal pada kumpulan data gambar atau video yang cukup spesifik untuk kasus penggunaan tertentu, alih-alih dirancang untuk mengembangkan pemahaman umum tentang hukum yang berlaku.

Orang lain dapat menyajikan penampilan pemahaman mengenai hukum-hukum fisika; tetapi mereka mungkin sebenarnya mereproduksi sampel dari data pelatihan mereka, daripada benar-benar memahami dasar-dasar area seperti fisika gerak dengan cara yang dapat menghasilkan penggambaran yang benar-benar baru (dan masuk akal secara ilmiah) dari perintah pengguna.

Pada momen yang sensitif ini dalam produksi dan komersialisasi sistem AI generatif, terserah kepada kita, dan kepada pengamatan para investor, untuk membedakan pemasaran model AI baru yang dibuat-buat dari kenyataan keterbatasannya.

Salah satu bulan November makalah paling menarik, yang dipimpin oleh Bytedance Research, menangani masalah ini, mengeksplorasi kesenjangan antara kemampuan nyata dan nyata dari model generatif 'serbaguna' seperti sora.

Penelitian ini menyimpulkan bahwa pada kondisi teknologi saat ini, output yang dihasilkan dari model jenis ini lebih mungkin meniru contoh dari data pelatihan mereka daripada benar-benar menunjukkan pemahaman penuh terhadap kendala fisik mendasar yang berlaku di dunia nyata.

Makalah menyatakan *:

β€œ[Model-model] ini dapat dengan mudah bias karena contoh-contoh yang β€œmenipu” dari set pelatihan, yang menyebabkan mereka melakukan generalisasi dalam cara β€œberbasis kasus” dalam kondisi tertentu. Fenomena ini, juga diamati dalam model bahasa besar, menggambarkan kecenderungan model untuk merujuk kasus pelatihan yang serupa saat menyelesaikan tugas baru.

"Misalnya, pertimbangkan model video yang dilatih pada data bola berkecepatan tinggi yang bergerak dalam gerakan linier beraturan. Jika penambahan data dilakukan dengan membalik video secara horizontal, sehingga menghasilkan gerakan arah terbalik, model tersebut dapat menghasilkan skenario di mana bola berkecepatan rendah membalikkan arah setelah bingkai awal, meskipun perilaku ini tidak benar secara fisik."

Kita akan melihat lebih dekat pada makalah yang berjudul Mengevaluasi Model Dunia dengan LLM untuk Pengambilan Keputusan  β€“ sebentar lagi. Namun, pertama-tama, mari kita lihat latar belakang keterbatasan yang tampak ini.

Mengingat hal-hal yang lampau

Tanpa generalisasi, model AI yang terlatih tidak lebih dari sekadar lembar kerja mahal berisi referensi ke bagian data pelatihannya: temukan istilah pencarian yang tepat, dan Anda dapat memanggil contoh data tersebut.

Dalam skenario tersebut, model tersebut secara efektif bertindak sebagai 'mesin pencari saraf', karena tidak dapat menghasilkan interpretasi abstrak atau 'kreatif' dari keluaran yang diinginkan, tetapi sebaliknya mereplikasi beberapa variasi kecil data yang dilihatnya selama proses pelatihan.

Ini dikenal sebagai menghafal – masalah kontroversial yang muncul karena model AI yang benar-benar lentur dan interpretatif cenderung kurang detail, sedangkan model yang benar-benar terperinci cenderung kurang orisinalitas dan fleksibilitas.

Kemampuan model yang dipengaruhi oleh hafalan untuk mereproduksi data pelatihan merupakan rintangan hukum yang potensial, dalam kasus di mana pembuat model tidak memiliki hak yang tidak terbatas untuk menggunakan data tersebut; dan di mana manfaat dari data tersebut dapat ditunjukkan melalui peningkatan jumlah metode ekstraksi.

Karena menghafal, jejak data yang tidak sah dapat bertahan, berantai, melalui beberapa sistem pelatihan, seperti tanda air yang tidak dapat dihapus dan tidak diinginkan – bahkan dalam proyek di mana praktisi pembelajaran mesin telah berhati-hati untuk memastikan bahwa data yang digunakan 'aman'.

Model Dunia

Namun, masalah utama dalam penggunaan hafalan adalah bahwa hal ini cenderung menyampaikan ilusi kecerdasan, atau menyatakan bahwa model AI telah menggeneralisasi hukum atau domain fundamental, padahal sebenarnya banyaknya data yang dihafallah yang menghasilkan ilusi ini (dengan kata lain, model tersebut memiliki begitu banyak contoh data potensial untuk dipilih sehingga sulit bagi manusia untuk menentukan apakah model tersebut memuntahkan konten yang dipelajari atau apakah model tersebut benar-benar memiliki pemahaman yang abstrak mengenai konsep yang terlibat dalam pembuatannya).

Masalah ini berdampak pada meningkatnya minat terhadap model dunia – prospek sistem AI yang sangat beragam dan memerlukan pelatihan mahal yang menggabungkan berbagai hukum yang diketahui, dan sangat dapat dieksplorasi.

Model dunia sangat menarik dalam ruang gambar dan video generatif. Pada tahun 2023 RunwayML memulai inisiatif penelitian ke dalam pengembangan dan kelayakan model tersebut; DeepMind baru-baru ini disewa salah satu pencetus video generatif Sora yang diakui untuk mengerjakan model semacam ini; dan perusahaan rintisan seperti Higgsfield berinvestasi secara signifikan dalam model dunia untuk sintesis gambar dan video.

Kombinasi Keras

Salah satu janji dari perkembangan baru dalam sistem AI video generatif adalah prospek bahwa mereka dapat mempelajari hukum-hukum fisika fundamental, seperti gerak, kinematika manusia (seperti karakteristik gaya berjalan), dinamika fluida, dan fenomena fisik lain yang diketahui, paling tidak, secara visual familiar bagi manusia.

Jika AI generatif dapat mencapai tonggak sejarah ini, ia akan mampu menghasilkan efek visual hiper-realistis yang menggambarkan ledakan, banjir, dan peristiwa tabrakan yang masuk akal di berbagai jenis objek.

Sebaliknya, jika sistem AI hanya dilatih dengan ribuan (atau ratusan ribu) video yang menggambarkan peristiwa tersebut, maka sistem tersebut akan mampu mereproduksi data pelatihan dengan cukup meyakinkan ketika dilatih dengan titik data yang serupa dengan kueri target pengguna; belum gagal jika kueri menggabungkan terlalu banyak konsep yang, dalam kombinasi tersebut, tidak terwakili sama sekali dalam data.

Lebih jauh lagi, keterbatasan ini tidak akan langsung terlihat, sampai seseorang mendorong sistem dengan kombinasi yang menantang seperti ini.

Artinya, sistem generatif baru mungkin mampu menghasilkan konten video viral yang, meskipun mengesankan, dapat menciptakan kesan palsu tentang kemampuan dan kedalaman pemahaman sistem, karena tugas yang diwakilinya bukanlah tantangan nyata bagi sistem.

Misalnya saja, suatu peristiwa yang cukup umum dan tersebar luas, seperti 'sebuah bangunan dihancurkan', mungkin hadir dalam beberapa video dalam kumpulan data yang digunakan untuk melatih model yang seharusnya memiliki pemahaman tentang fisika. Oleh karena itu, model tersebut mungkin dapat menggeneralisasi konsep ini dengan baik, dan bahkan menghasilkan keluaran yang benar-benar baru dalam parameter yang dipelajari dari banyak video.

Ini adalah dalam distribusi misalnya, di mana kumpulan data berisi banyak contoh bermanfaat untuk dipelajari oleh sistem AI.

Namun, jika seseorang meminta contoh yang lebih aneh atau tidak masuk akal, seperti 'Menara Eiffel diledakkan oleh penjajah asing', model tersebut harus menggabungkan beragam domain seperti 'sifat metalurgi', 'karakteristik ledakan', 'gravitasi', 'hambatan angin' – dan 'pesawat ruang angkasa alien'.

Ini adalah di luar distribusi (OOD), yang menggabungkan begitu banyak konsep yang saling terkait sehingga sistem kemungkinan besar akan gagal menghasilkan contoh yang meyakinkan, atau akan menggunakan contoh semantik terdekat yang menjadi acuan pelatihannya – bahkan jika contoh tersebut tidak sesuai dengan perintah pengguna.

Kecuali bahwa kumpulan data sumber model tersebut berisi VFX berbasis CGI bergaya Hollywood yang menggambarkan kejadian yang sama atau serupa, penggambaran seperti itu mutlak memerlukan pemahaman yang menyeluruh dan fleksibel tentang hukum-hukum fisika.

Pembatasan Fisik

Makalah baru – sebuah kolaborasi antara Bytedance, Universitas Tsinghua dan Technion – menunjukkan bahwa model seperti Sora tidak hanya tidak benar-benar menginternalisasi hukum-hukum fisika deterministik dengan cara ini, tetapi peningkatan data (pendekatan umum selama 18 bulan terakhir) tampaknya, dalam banyak kasus, tidak menghasilkan perbaikan nyata dalam hal ini.

Makalah ini tidak hanya menyelidiki batas ekstrapolasi hukum fisika tertentu – seperti perilaku benda yang bergerak ketika bertabrakan, atau ketika lintasannya terhalang – tetapi juga kapasitas model untuk generalisasi kombinatorial – contoh di mana representasi dua prinsip fisika yang berbeda digabungkan menjadi satu keluaran generatif.

Ringkasan video dari makalah baru. Sumber: https://x.com/bingyikang/status/1853635009611219019

Tiga hukum fisika yang dipilih untuk dipelajari oleh para peneliti adalah gerak parabola; gerak linier beraturan; Dan tumbukan elastis sempurna.

Seperti yang dapat dilihat dalam video di atas, temuan menunjukkan bahwa model seperti Sora tidak benar-benar menginternalisasi hukum fisika, tetapi cenderung mereproduksi data pelatihan.

Lebih lanjut, penulis menemukan bahwa aspek seperti warna dan bentuk menjadi sangat saling terkait pada waktu inferensi sehingga bola yang dihasilkan kemungkinan besar akan berubah menjadi persegi, tampaknya karena gerakan serupa dalam contoh kumpulan data menampilkan persegi dan bukan bola (lihat contoh dalam video yang disematkan di atas).

Makalah yang telah terutama terlibat sektor penelitian di media sosial, menyimpulkan:

'Studi kami menunjukkan bahwa penskalaan saja tidak cukup bagi model pembuatan video untuk mengungkap hukum-hukum fisika fundamental, meskipun perannya dalam keberhasilan Sora yang lebih luas…

'…[Temuan] menunjukkan bahwa penskalaan saja tidak dapat mengatasi masalah OOD, meskipun hal itu meningkatkan kinerja dalam skenario lain.

Analisis mendalam kami menunjukkan bahwa generalisasi model video lebih bergantung pada referensi contoh pelatihan yang serupa daripada mempelajari aturan universal. Kami mengamati urutan prioritas warna > ukuran > kecepatan > bentuk dalam perilaku "berbasis kasus" ini.

'[Studi] kami menunjukkan bahwa penskalaan naif tidak cukup bagi model pembangkitan video untuk menemukan hukum-hukum fisika fundamental.'

Ketika ditanya apakah tim peneliti telah menemukan solusi atas masalah tersebut, salah satu penulis makalah tersebut berkomentar:

"Sayangnya, kami belum melakukannya. Sebenarnya, ini mungkin misi seluruh komunitas AI."

Metode dan Data

Para peneliti menggunakan a Autoencoder Variasi (VAE) dan DIT arsitektur untuk menghasilkan sampel video. Dalam pengaturan ini, kompresi representasi laten diproduksi oleh VAE bekerja sama dengan pemodelan DiT tentang mencela proses.

Video dilatih melalui Stable Diffusion V1.5-VAE. Skemanya tidak mengalami perubahan mendasar, hanya dengan penyempurnaan arsitektur di akhir proses:

'[Kami mempertahankan] mayoritas konvolusi 2D asli, normalisasi grup, dan mekanisme perhatian pada dimensi spasial.

'Untuk mengembangkan struktur ini menjadi auto-encoder spasial-temporal, kami mengubah beberapa blok downsample 2D terakhir dari encoder dan beberapa blok upsample 2D awal dari decoder menjadi blok 3D, dan menggunakan beberapa lapisan 1D tambahan untuk meningkatkan pemodelan temporal.'

Agar dapat melakukan pemodelan video, VAE yang dimodifikasi dilatih bersama dengan data gambar dan video HQ, dengan komponen Jaringan Generatif Adversarial (GAN) 2D yang asli pada arsitektur SD1.5 yang ditambah untuk 3D.

Dataset gambar yang digunakan adalah sumber asli Stable Diffusion, LAION-Estetika, dengan penyaringan, selain itu DataKomputerUntuk data video, subset dikurasi dari Vimeo-90K, Panda-70m dan HDVG dataset.

Data dilatih selama satu juta langkah, dengan pemotongan ukuran acak dan pembalikan horizontal acak diterapkan sebagai augmentasi data proses.

Membalik keluar

Seperti yang disebutkan di atas, penambahan data flip horizontal acak proses dapat menjadi kendala dalam melatih sistem yang dirancang untuk menghasilkan gerakan yang autentik. Hal ini dikarenakan output dari model yang dilatih dapat dianggap kedua arah suatu objek, dan menyebabkan pembalikan acak saat mencoba menegosiasikan data yang bertentangan ini (lihat video tertanam di atas).

Di sisi lain, jika seseorang melakukan pembalikan horizontal lepas, model tersebut kemudian cenderung menghasilkan output yang sesuai dengan hanya satu arah dipelajari dari data pelatihan.

Jadi tidak ada solusi mudah untuk masalah ini, kecuali sistem benar-benar mengasimilasi keseluruhan kemungkinan pergerakan dari versi asli dan versi terbalik – sebuah kemampuan yang mudah dikembangkan oleh anak-anak, tetapi tampaknya menjadi tantangan yang lebih besar bagi model AI.

Tes

Untuk rangkaian percobaan pertama, para peneliti merumuskan simulator 2D untuk menghasilkan video pergerakan dan tabrakan objek yang sesuai dengan hukum mekanika klasik, yang menyediakan kumpulan data terkontrol dan bervolume tinggi yang menyingkirkan ambiguitas video dunia nyata, untuk evaluasi model. Kotak2D Mesin permainan fisika digunakan untuk membuat video ini.

Tiga skenario mendasar yang tercantum di atas menjadi fokus pengujian: gerak linier beraturan, tumbukan elastis sempurna, dan gerak parabola.

Kumpulan data dengan ukuran yang meningkat (berkisar dari 30,000 hingga tiga juta video) digunakan untuk melatih model dengan ukuran dan kompleksitas berbeda (DiT-S hingga DiT-L), dengan tiga bingkai pertama setiap video digunakan untuk pengkondisian.

Rincian berbagai model yang dilatih dalam rangkaian percobaan pertama. Sumber: https://arxiv.org/pdf/2411.02385

Rincian berbagai model yang dilatih dalam rangkaian percobaan pertama. Sumber: https://arxiv.org/pdf/2411.02385

Para peneliti menemukan bahwa hasil dalam distribusi (ID) berskala baik seiring bertambahnya jumlah data, sementara generasi OOD tidak membaik, yang menunjukkan kekurangan dalam generalisasi.

Hasil pengujian putaran pertama.

Hasil pengujian putaran pertama.

Catatan penulis:

'Temuan ini menunjukkan ketidakmampuan penskalaan untuk melakukan penalaran dalam skenario OOD.'

Berikutnya, para peneliti menguji dan melatih sistem yang dirancang untuk menunjukkan kemahiran dalam generalisasi kombinatorial, di mana dua gerakan yang kontras digabungkan untuk (semoga) menghasilkan gerakan yang kohesif yang setia pada hukum fisika di balik setiap gerakan terpisah.

Untuk tahap pengujian ini, penulis menggunakan Bahasa Indonesia: PHYRE simulator, menciptakan lingkungan 2D yang menggambarkan beberapa objek dengan bentuk berbeda dalam keadaan jatuh bebas, bertabrakan satu sama lain dalam berbagai interaksi yang kompleks.

Metrik evaluasi untuk tes kedua ini adalah Jarak Video FrΓ©chet (FVD); Indeks Kesamaan Struktural (SSIM); Rasio Sinyal terhadap Derau Puncak (PSNR); Metrik Kesamaan Persepsi yang Dipelajari (LPIPS); dan studi manusia (disebut 'abnormal' dalam hasilnya).

Tiga skala set data pelatihan dibuat, pada 100,000 video, 0.6 juta video, dan 3-6 juta video. Model DiT-B dan DiT-XL digunakan, karena video semakin kompleks, dengan bingkai pertama digunakan untuk pengkondisian.

Model dilatih untuk satu juta langkah pada resolusi 256Γ—256, dengan 32 bingkai per video.

Hasil pengujian putaran kedua.

Hasil pengujian putaran kedua.

Hasil pengujian ini menunjukkan bahwa sekadar menambah volume data bukanlah pendekatan yang memadai:

Makalah tersebut menyatakan:

"Hasil ini menunjukkan bahwa kapasitas model dan cakupan ruang kombinasi sangat penting untuk generalisasi kombinatorial. Wawasan ini menyiratkan bahwa hukum penskalaan untuk pembuatan video harus difokuskan pada peningkatan keragaman kombinasi, bukan sekadar peningkatan volume data."

Akhirnya, para peneliti melakukan pengujian lebih lanjut untuk mencoba menentukan apakah model pembangkitan video benar-benar dapat mengasimilasi hukum fisika, atau apakah ia hanya menghafal dan mereproduksi data pelatihan pada waktu inferensi.

Di sini mereka meneliti konsep generalisasi 'berbasis kasus', di mana model cenderung meniru contoh pelatihan tertentu saat menghadapi situasi baru, serta meneliti contoh gerak seragam – khususnya, bagaimana arah gerak dalam data pelatihan memengaruhi prediksi model yang dilatih.

Dua set data pelatihan, untuk gerak seragam dan tabrakan, dikurasi, masing-masing terdiri dari video gerak seragam yang menggambarkan kecepatan antara 2.5 hingga 4 unit, dengan tiga bingkai pertama digunakan sebagai pengkondisian. Nilai laten seperti kecepatan dihilangkan, dan, setelah pelatihan, pengujian dilakukan pada skenario yang terlihat dan tidak terlihat.

Di bawah ini kita melihat hasil pengujian untuk pembangkitan gerak seragam:

Hasil untuk pengujian untuk pembangkitan gerak seragam, di mana variabel 'kecepatan' dihilangkan selama pelatihan.

Hasil untuk pengujian untuk pembangkitan gerak seragam, di mana variabel 'kecepatan' dihilangkan selama pelatihan.

Para penulis menyatakan:

'[Dengan] celah besar dalam set pelatihan, model cenderung menghasilkan video dengan kecepatan tinggi atau rendah agar menyerupai data pelatihan saat bingkai awal menunjukkan kecepatan rentang menengah.'

Untuk pengujian tabrakan, lebih banyak variabel yang terlibat, dan model diharuskan mempelajari model dua dimensi. fungsi non-linier.

Tabrakan: hasil untuk putaran pengujian ketiga dan terakhir.

Tabrakan: hasil untuk putaran pengujian ketiga dan terakhir.

Para penulis mengamati bahwa keberadaan contoh-contoh yang 'menipu', seperti gerak terbalik (misalnya, bola yang memantul dari suatu permukaan dan membalikkan arahnya), dapat menyesatkan model dan menyebabkannya menghasilkan prediksi yang secara fisik tidak benar.

Kesimpulan

Jika algoritma non-AI (yaitu, metode prosedural 'panggang') berisi aturan matematika untuk perilaku fenomena fisika seperti cairan, atau objek di bawah gravitasi, atau di bawah tekanan, ada serangkaian konstanta yang tidak berubah yang tersedia untuk rendering yang akurat.

Namun, temuan makalah baru ini menunjukkan bahwa tidak ada hubungan setara atau pemahaman intrinsik tentang hukum fisika klasik yang dikembangkan selama pelatihan model generatif, dan bahwa peningkatan jumlah data tidak menyelesaikan masalah, tetapi malah mengaburkannya – karena lebih banyak video pelatihan tersedia bagi sistem untuk ditiru pada waktu inferensi.

 

* Konversi kutipan sebaris penulis menjadi hyperlink.

Pertama kali diterbitkan pada hari Selasa, 26 November 2024

Penulis tentang pembelajaran mesin, spesialis domain dalam sintesis citra manusia. Mantan kepala konten penelitian di Metaphysic.ai.
Situs pribadi: martinanderson.ai
Kontak: [email dilindungi]
Twitter: @manders_ai