Kecerdasan Buatan

DeepMind: AI Dapat Mewarisi Keterbatasan Kognitif Manusia, Bisa Memanfaatkan 'Pendidikan Formal'

Updated on Desember 9, 2022

Kolaborasi baru dari DeepMind dan Stanford University menunjukkan bahwa AI sering kali tidak lebih baik dalam penalaran abstrak dibandingkan manusia, karena model pembelajaran mesin memperoleh arsitektur penalarannya dari contoh manusia di dunia nyata yang didasarkan pada konteks praktis (yang tidak dapat dialami oleh AI). ), tetapi juga terhalang oleh kekurangan kognitif kita sendiri.

Terbukti, ini bisa menjadi penghalang bagi pemikiran 'langit biru' superior dan kualitas asal usul intelektual yang diharapkan banyak orang dari sistem pembelajaran mesin, dan menggambarkan sejauh mana AI mencerminkan pengalaman manusia, dan cenderung memikirkan (dan alasan) dalam batas-batas manusia yang telah memberitahukannya.

Para peneliti menyarankan bahwa model AI dapat memperoleh manfaat dari pra-pelatihan dalam penalaran abstrak, menyamakannya dengan 'pendidikan formal', sebelum mulai mengerjakan tugas dunia nyata.

Makalah tersebut menyatakan:

'Manusia adalah pemikir yang tidak sempurna. Kami bernalar paling efektif tentang entitas dan situasi yang konsisten dengan pemahaman kami tentang dunia.

Eksperimen kami menunjukkan bahwa model bahasa mencerminkan pola perilaku ini. Model bahasa tampil tidak sempurna pada tugas penalaran logis, tetapi kinerja ini bergantung pada konten dan konteks. Terutama, model seperti itu sering gagal dalam situasi di mana manusia gagal — ketika rangsangan menjadi terlalu abstrak atau bertentangan dengan pemahaman dunia sebelumnya.'

Untuk menguji sejauh mana model Pemrosesan Bahasa Alami (NLP) tingkat hyperscale dan GPT mungkin terpengaruh oleh keterbatasan tersebut, para peneliti menjalankan serangkaian tiga pengujian pada model yang sesuai, dan menyimpulkan*:

'Kami menemukan model bahasa besar yang canggih (dengan 7 atau 70 miliar parameter) mencerminkan banyak pola yang sama yang diamati pada manusia di seluruh tugas ini — seperti manusia, model memberi alasan lebih efektif tentang situasi yang dapat dipercaya daripada situasi yang tidak realistis atau abstrak.

'Temuan kami memiliki implikasi untuk memahami kedua efek kognitif ini, dan faktor yang berkontribusi pada kinerja model bahasa.'

Makalah tersebut menunjukkan bahwa menciptakan keterampilan penalaran dalam AI tanpa memberikan manfaat dari dunia nyata, pengalaman jasmani yang menempatkan keterampilan tersebut ke dalam konteks, dapat membatasi potensi sistem tersebut, mengamati bahwa 'pengalaman membumi... mungkin mendukung beberapa keyakinan dan penalaran manusia'.

Penulis mengandaikan bahwa AI mengalami bahasa secara pasif, sedangkan manusia mengalaminya sebagai komponen aktif dan sentral untuk komunikasi sosial, dan bahwa partisipasi aktif semacam ini (yang memerlukan sistem hukuman dan penghargaan sosial konvensional) dapat menjadi 'kunci' untuk memahami makna dalam bahasa. dengan cara yang sama seperti yang dilakukan manusia.

Para peneliti mengamati:

'Beberapa perbedaan antara model bahasa dan manusia karenanya mungkin berasal dari perbedaan antara pengalaman manusia yang kaya, membumi, dan interaktif dan pengalaman model yang miskin.'

Mereka berpendapat bahwa salah satu solusi mungkin berupa periode 'pra-pelatihan', seperti yang dialami manusia di sistem sekolah dan universitas, sebelum pelatihan tentang data inti yang pada akhirnya akan membangun model bahasa yang berguna dan serbaguna.

Periode 'pendidikan formal' ini (seperti yang dianalogikan oleh para peneliti) akan berbeda dari pra-pelatihan pembelajaran mesin konvensional (yang merupakan metode untuk mengurangi waktu pelatihan dengan menggunakan kembali model semi-terlatih atau mengimpor bobot dari model yang terlatih sepenuhnya, sebagai 'booster' untuk memulai proses pelatihan).

Sebaliknya, itu akan mewakili periode pembelajaran berkelanjutan yang dirancang untuk mengembangkan keterampilan penalaran logis AI dengan cara yang murni abstrak, dan untuk mengembangkan fakultas kritis dengan cara yang sama seperti yang akan didorong untuk dilakukan oleh seorang mahasiswa selama pendidikan gelar mereka. .

'Beberapa hasil,' kata penulis, 'menunjukkan bahwa ini mungkin tidak dibuat-buat seperti kedengarannya'.

Grafik kertas berjudul Model bahasa menunjukkan efek konten seperti manusia pada penalaran, dan berasal dari enam peneliti di DeepMind, dan satu yang berafiliasi dengan DeepMind dan Stanford University.

Tes

Manusia mempelajari konsep-konsep abstrak melalui contoh-contoh praktis, dengan metode 'kepentingan tersirat' yang sama yang sering membantu pembelajar bahasa untuk menghafal kosa kata dan aturan linguistik, melalui mnemonik. Contoh paling sederhana dari ini adalah mengajarkan prinsip-prinsip muskil dalam fisika menyulap 'skenario perjalanan' untuk kereta api dan mobil.

Untuk menguji kemampuan penalaran abstrak dari model bahasa hiperskala, para peneliti merancang satu set tiga tes linguistik/semantik yang dapat menantang juga bagi manusia. Tes diterapkan 'zero shot' (tanpa contoh yang dipecahkan) dan 'five shot' (dengan lima contoh yang dipecahkan sebelumnya).

Tugas pertama berkaitan dengan inferensi bahasa alami (NLI), di mana subjek (seseorang atau, dalam hal ini, mode bahasa) menerima dua kalimat, 'premis' dan 'hipotesis' yang tampaknya disimpulkan dari premis. Misalnya X lebih kecil dari Y, Hipotesis: Y lebih besar dari X (terikat).

Untuk tugas Inferensi Bahasa Alami, para peneliti mengevaluasi model bahasa Chinchilla (model parameter 70 miliar) dan 7B (versi parameter 7 miliar dari model yang sama), menemukan bahwa untuk contoh yang konsisten (yaitu yang bukan omong kosong), hanya model Chinchilla yang lebih besar yang memperoleh hasil lebih tinggi daripada peluang belaka; dan mereka mencatat:

'Ini menunjukkan bias isi yang kuat: model lebih suka melengkapi kalimat dengan cara yang konsisten dengan ekspektasi sebelumnya daripada dengan cara yang konsisten dengan aturan logika'.

Performa parameter 70 miliar Chinchilla dalam tugas NLI. Baik model ini maupun versi 7B yang lebih ramping menunjukkan 'bias kepercayaan yang substansial', menurut para peneliti. Sumber: https://arxiv.org/pdf/2207.07051.pdf

silogisme

Tugas kedua menghadirkan tantangan yang lebih kompleks, silogisme – argumen di mana dua pernyataan benar tampaknya menyiratkan pernyataan ketiga (yang mungkin atau mungkin bukan kesimpulan logis yang disimpulkan dari dua pernyataan sebelumnya):

Dari bahan tes kertas, berbagai silogisme 'realistis' dan paradoks atau tidak masuk akal.

Di sini, manusia sangat bisa salah, dan sebuah konstruksi yang dirancang untuk mencontohkan prinsip logis menjadi segera, (dan mungkin secara permanen) terjerat dan dibingungkan oleh 'kepercayaan' manusia tentang jawaban yang benar. seharusnya menjadi.

Para penulis mencatat bahwa a belajar dari 1983 menunjukkan bahwa peserta bias dengan apakah kesimpulan silogisme sesuai dengan keyakinan mereka sendiri, mengamati:

'Peserta lebih mungkin (90% dari waktu) untuk keliru mengatakan silogisme yang tidak valid adalah valid jika kesimpulannya dapat dipercaya, dan dengan demikian sebagian besar mengandalkan kepercayaan daripada penalaran abstrak.'

Dalam menguji Chinchilla terhadap serangkaian silogisme yang beragam, banyak di antaranya diakhiri dengan persyaratan yang salah, para peneliti menemukan bahwa 'bias kepercayaan mendorong hampir semua keputusan tanpa hasil'. Jika model bahasa menemukan kesimpulan yang tidak konsisten dengan kenyataan, model tersebut, kata penulis, 'sangat bias' untuk menyatakan argumen terakhir tidak valid, bahkan ketika argumen terakhir adalah konsekuensi logis dari pernyataan sebelumnya.

Hasil zero shot untuk Chinchilla (zero shot adalah cara sebagian besar subjek uji menerima tantangan ini, setelah penjelasan tentang aturan panduan), menggambarkan jurang pemisah yang luas antara kapasitas komputasi komputer dan kapasitas model NLP untuk menavigasi logika yang baru lahir semacam ini tantangan.

Hasil zero shot untuk Chinchilla (zero shot adalah cara sebagian besar subjek tes menerima tantangan ini, setelah penjelasan tentang aturan panduan), yang menggambarkan jurang pemisah yang luas antara kapasitas komputasi komputer dan kapasitas model NLP untuk menavigasi 'baru lahir' semacam ini. tantangan logika.

Tugas Seleksi Wason

Untuk tes ketiga, yang lebih menantang Tugas Seleksi Wason masalah logika dirumuskan kembali menjadi sejumlah iterasi yang bervariasi untuk dipecahkan oleh model bahasa.

Tugas Wason, dirancang di 1968, tampaknya sangat sederhana: peserta diperlihatkan empat kartu, dan diberi tahu aturan sewenang-wenang seperti 'Jika sebuah kartu memiliki 'D' di satu sisi, maka kartu tersebut memiliki '3' di sisi lainnya.' Empat sisi kartu yang terlihat menunjukkan 'D', 'F', '3' dan '7'.

Subjek kemudian ditanyai kartu mana yang harus mereka serahkan untuk memverifikasi apakah aturan itu benar atau salah.

Solusi yang tepat dalam contoh ini adalah membalik kartu 'D' dan '7'. Dalam tes awal, ditemukan bahwa sebagian besar subjek (manusia) akan memilih 'D' dengan benar, mereka lebih cenderung memilih '3' daripada '7', membingungkan kontrapositif aturan ('tidak 3 berarti tidak D') dengan berbicara ('3' menyiratkan 'D', yang tidak tersirat secara logis).

Para penulis mencatat bahwa potensi keyakinan sebelumnya menjadi perantara ke dalam proses logis pada subjek manusia, dan mencatat lebih lanjut bahwa bahkan matematikawan akademik dan matematikawan sarjana umumnya mendapat skor di bawah 50% pada tugas ini.

Namun, ketika skema tugas Wason dalam beberapa cara mencerminkan pengalaman praktis manusia, kinerja secara tradisional meningkat.

Para penulis mengamati, mengacu pada percobaan sebelumnya:

'[Jika] kartu menunjukkan usia dan minuman, dan aturannya adalah "jika mereka minum alkohol, maka mereka harus berusia 21 tahun atau lebih" dan menunjukkan kartu dengan 'bir', 'soda', '25', '16', sebagian besar peserta dengan benar memilih untuk mencentang kartu yang menunjukkan 'bir' dan '16'.'

Untuk menguji kinerja model bahasa pada tugas-tugas Wason, para peneliti menciptakan beragam aturan realistis dan sewenang-wenang, beberapa di antaranya menampilkan kata-kata 'omong kosong', untuk melihat apakah AI dapat menembus konteks konten untuk menentukan 'kartu virtual' mana yang harus dibalik.

Beberapa dari banyak teka-teki Tugas Pemilihan Wason disajikan dalam tes.

Untuk tes Wason, model bekerja sebanding dengan manusia pada tugas 'realistis' (bukan omong kosong).

Hasil Tugas Pemilihan Wason Zero-shot untuk Chinchilla, dengan model berkinerja jauh di atas peluang, setidaknya untuk aturan 'realistis'.

Kertas komentar:

'Ini mencerminkan temuan dalam literatur manusia: manusia jauh lebih akurat dalam menjawab tugas Wason ketika dibingkai dalam situasi realistis daripada aturan sewenang-wenang tentang atribut abstrak.'

Pendidikan Formal

Temuan makalah ini membingkai potensi penalaran sistem NLP hiperskala dalam konteks keterbatasan kita sendiri, yang tampaknya kita sampaikan ke model, melalui kumpulan data dunia nyata yang terkumpul yang mendukungnya. Karena kebanyakan dari kita bukan jenius, begitu pula model yang parameternya diinformasikan oleh kita sendiri.

Selain itu, karya baru menyimpulkan, kita setidaknya memiliki keuntungan dari periode pendidikan formatif yang berkelanjutan, dan motivasi sosial, keuangan, dan bahkan seksual tambahan yang membentuk keharusan manusia. Semua yang dapat diperoleh model NLP adalah hasil tindakan dari faktor-faktor lingkungan ini, dan tampaknya lebih sesuai dengan manusia umum daripada manusia luar biasa.

Para penulis menyatakan:

'Hasil kami menunjukkan bahwa efek konten dapat muncul hanya dengan melatih transformator besar untuk meniru bahasa yang dihasilkan oleh budaya manusia, tanpa memasukkan mekanisme internal khusus manusia ini.

'Dengan kata lain, model bahasa dan manusia sama-sama sampai pada bias konten ini – tetapi dari arsitektur, pengalaman, dan tujuan pelatihan yang tampaknya sangat berbeda.'

Jadi mereka menyarankan semacam 'pelatihan induksi' dalam penalaran murni, yang telah menjadi ditunjukkan untuk meningkatkan kinerja model untuk matematika dan penalaran umum. Mereka lebih lanjut mencatat bahwa model bahasa juga telah dilatih atau disetel untuk mengikuti instruksi dengan lebih baik pada tingkat abstrak atau umum, dan untuk verifikasi, koreksi atau debias keluaran mereka sendiri.

* Konversi kutipan inline saya ke hyperlink.

Pertama kali diterbitkan 15 Juli 2022.

Berikutnya

Peneliti Mengidentifikasi Sifat Tangguh dari Deepfakes yang Dapat Membantu Deteksi Jangka Panjang

Jangan Miss

Pemeriksa Bias Berbasis AI untuk Artikel Berita, Tersedia dalam Python

Martin Anderson

Penulis tentang pembelajaran mesin, kecerdasan buatan, dan data besar.
Situs pribadi: martinanderson.ai
Kontak: [email dilindungi]
Twitter: @manders_ai