Terhubung dengan kami

Kecerdasan Buatan

Memecah Kode Skala: Bagaimana Model AI Mendefinisikan Ulang Aturan

mm

Kecerdasan buatan telah mengalami kemajuan pesat dalam beberapa tahun terakhir. Model yang dulunya kesulitan dengan tugas-tugas dasar kini unggul dalam memecahkan masalah matematika, menghasilkan kode, dan menjawab pertanyaan-pertanyaan rumit. Inti dari kemajuan ini adalah konsep hukum skala—aturan yang menjelaskan bagaimana model AI meningkat seiring pertumbuhannya, dilatih pada lebih banyak data, atau didukung oleh sumber daya komputasi yang lebih besar. Selama bertahun-tahun, hukum ini berfungsi sebagai cetak biru untuk mengembangkan AI yang lebih baik.

Baru-baru ini, tren baru telah muncul. Para peneliti menemukan cara untuk mencapai hasil yang luar biasa tanpa hanya membuat model menjadi lebih besar. Pergeseran ini lebih dari sekadar evolusi teknis. Ini membentuk kembali cara AI dibangun, membuatnya lebih efisien, mudah diakses, dan berkelanjutan.

Dasar-Dasar Hukum Skala

Hukum penskalaan seperti rumus untuk peningkatan AI. Hukum tersebut menyatakan bahwa saat Anda meningkatkan ukuran model, memberinya lebih banyak data, atau memberinya akses ke daya komputasi yang lebih besar, kinerjanya akan meningkat. Misalnya:

Ukuran model: Model yang lebih besar dengan lebih banyak parameter dapat mempelajari dan merepresentasikan pola yang lebih kompleks. Parameter adalah bagian model yang dapat disesuaikan yang memungkinkannya membuat prediksi.

Data: Pelatihan pada kumpulan data yang luas dan beragam membantu model digeneralisasikan dengan lebih baik, sehingga memungkinkan model menangani tugas yang tidak dilatihkan secara eksplisit.

menghitung:Daya komputasi yang lebih besar memungkinkan pelatihan yang lebih cepat dan lebih efisien, sehingga mencapai kinerja yang lebih tinggi.

Resep ini telah mendorong evolusi AI selama lebih dari satu dekade. Jaringan saraf awal seperti AlexNet dan ResNet menunjukkan bagaimana peningkatan ukuran model dapat meningkatkan pengenalan gambar. Kemudian muncul transformer di mana model seperti GPT-3 dan Google BERTI telah menunjukkan bahwa penskalaan dapat membuka kemampuan yang benar-benar baru, seperti pembelajaran beberapa bidikan.

Batasan Skala

Meskipun berhasil, penskalaan memiliki keterbatasan. Seiring dengan pertumbuhan model, peningkatan dari penambahan lebih banyak parameter pun berkurang. Fenomena ini, yang dikenal sebagai “hukum hasil yang semakin berkurang,” berarti bahwa menggandakan ukuran model tidak menggandakan kinerjanya. Sebaliknya, setiap peningkatan menghasilkan keuntungan yang lebih kecil. Ini berarti bahwa untuk lebih mendorong kinerja model tersebut akan membutuhkan lebih banyak sumber daya untuk keuntungan yang relatif sederhana. Ini memiliki konsekuensi di dunia nyata. Membangun model besar datang dengan biaya finansial dan lingkungan yang signifikan. Melatih model besar mahal. GPT-3 dilaporkan menghabiskan biaya jutaan dolar untuk dilatih. Biaya ini membuat AI mutakhir tidak dapat diakses oleh organisasi yang lebih kecil. Pelatihan model besar-besaran menghabiskan banyak energi. belajar memperkirakan bahwa pelatihan satu model besar dapat memancarkan karbon sebanyak lima mobil selama masa pakainya.

Para peneliti menyadari tantangan ini dan mulai mencari alternatif. Alih-alih mengandalkan kekuatan kasar, mereka bertanya: Bagaimana kita bisa membuat AI lebih cerdas, bukan hanya lebih besar?

Memecah Kode Skala

Terobosan terkini menunjukkan bahwa hukum penskalaan tradisional dapat dilampaui. Arsitektur yang lebih cerdas, strategi data yang lebih baik, dan teknik pelatihan yang efisien memungkinkan AI mencapai tingkat baru tanpa memerlukan sumber daya yang besar.

Desain Model yang Lebih Cerdas: Daripada membuat model lebih besar, para peneliti berfokus untuk membuatnya lebih efisien. Contohnya adalah:

    • Model jarang: Daripada mengaktifkan semua parameter sekaligus, model sparse hanya menggunakan bagian-bagian yang diperlukan untuk tugas tertentu. Pendekatan ini menghemat daya komputasi sambil mempertahankan kinerja. Contoh penting adalah Mistral 7B, yang, meskipun hanya memiliki 7 miliar parameter, mengungguli model yang jauh lebih besar dengan menggunakan arsitektur yang jarang.
    • Peningkatan transformer: Transformer tetap menjadi tulang punggung AI modern, tetapi desainnya terus berkembang. Inovasi seperti mekanisme perhatian linier membuat transformator lebih cepat dan lebih hemat sumber daya.

Strategi Data yang Lebih Baik: Lebih banyak data tidak selalu lebih baik. Kumpulan data berkualitas tinggi yang dikurasi sering kali mengungguli volume semata. Misalnya,

    • Kumpulan data yang terfokus: Alih-alih melakukan pelatihan pada data yang besar dan tidak tersaring, para peneliti menggunakan kumpulan data yang bersih dan relevan. Misalnya, OpenAI telah beralih ke data yang dipilih dengan cermat untuk meningkatkan keandalan.
    • Pelatihan khusus domain: Di area khusus seperti kedokteran atau hukum, kumpulan data yang ditargetkan membantu model berkinerja baik dengan lebih sedikit contoh.

Metode Pelatihan yang Efisien: Teknik pelatihan baru mengurangi tuntutan sumber daya tanpa mengorbankan kinerja. Beberapa contoh metode pelatihan ini meliputi:

    • Pembelajaran kurikulum: Dengan memulai dengan tugas yang lebih sederhana dan secara bertahap memperkenalkan tugas yang lebih sulit, model belajar lebih efektif. Hal ini mencerminkan cara manusia belajar.
    • Teknik seperti LoRA (Adaptasi Tingkat Rendah): Metode ini menyempurnakan model secara efisien tanpa melatihnya ulang sepenuhnya.
    • Titik pemeriksaan gradien: Pendekatan ini mengurangi penggunaan memori selama pelatihan, memungkinkan model yang lebih besar untuk berjalan pada perangkat keras yang terbatas.

Kemampuan yang Muncul: Seiring dengan pertumbuhan model, terkadang model tersebut menampilkan kemampuan yang mengejutkan, seperti memecahkan masalah yang tidak pernah dilatihkan sebelumnya. Kemampuan yang muncul ini menantang hukum penskalaan tradisional, karena sering kali muncul dalam model yang lebih besar tetapi tidak pada model yang lebih kecil. Para peneliti kini tengah menyelidiki cara untuk membuka kemampuan ini secara lebih efisien, tanpa bergantung pada penskalaan dengan kekuatan kasar.

Pendekatan Hibrida untuk AI yang Lebih Cerdas: Menggabungkan jaringan saraf dengan penalaran simbolik adalah arah lain yang menjanjikan. Sistem hibrida ini menggabungkan pengenalan pola dengan penalaran logis, sehingga menjadikannya lebih cerdas dan mudah beradaptasi. Pendekatan ini mengurangi kebutuhan akan kumpulan data besar dan daya komputasi.

Contoh Dunia Nyata

Beberapa model terkini menunjukkan bagaimana kemajuan ini menulis ulang aturan:

GPT-4oMini: Model ini memberikan kinerja yang sebanding dengan versi yang jauh lebih besar tetapi dengan biaya dan sumber daya yang lebih sedikit. Model ini mencapai hasil ini dengan bantuan teknik pelatihan yang lebih cerdas dan kumpulan data yang terfokus.

Mistral 7B: Dengan hanya 7 miliar parameter, model ini mengungguli model dengan puluhan miliar parameter. Arsitekturnya yang jarang membuktikan bahwa desain cerdas dapat melampaui ukuran mentah.

Claudia 3.5: Dengan mengutamakan pertimbangan keselamatan dan etika, model ini menyeimbangkan kinerja yang kuat dengan penggunaan sumber daya yang bijaksana.

Dampak Pelanggaran Hukum Skala

Kemajuan ini memiliki implikasi di dunia nyata.

Membuat AI Lebih Mudah Diakses: Desain yang efisien menurunkan biaya pengembangan dan penerapan AI. Model sumber terbuka seperti Lama 3.1 menyediakan peralatan AI canggih untuk perusahaan dan peneliti yang lebih kecil.

Masa Depan yang Lebih Hijau: Model yang dioptimalkan mengurangi konsumsi energi, sehingga pengembangan AI menjadi lebih berkelanjutan. Pergeseran ini penting karena kekhawatiran tentang dampak lingkungan AI semakin meningkat.

Memperluas Jangkauan AI: Model yang lebih kecil dan lebih efisien dapat berjalan pada perangkat sehari-hari, seperti telepon pintar dan gawai IoT. Hal ini membuka kemungkinan baru untuk aplikasi, mulai dari penerjemahan bahasa secara real-time hingga sistem otonom di mobil.

The Bottom Line

Hukum penskalaan telah membentuk masa lalu AI, tetapi tidak lagi menentukan masa depannya. Arsitektur yang lebih cerdas, penanganan data yang lebih baik, dan metode pelatihan yang efisien mendobrak aturan penskalaan tradisional. Inovasi ini membuat AI tidak hanya lebih kuat, tetapi juga lebih praktis dan berkelanjutan.

Fokus telah bergeser dari pertumbuhan dengan kekuatan kasar ke desain cerdas. Era baru ini menjanjikan AI yang dapat diakses oleh lebih banyak orang, ramah lingkungan, dan mampu memecahkan masalah dengan cara yang baru saja kita bayangkan. Kode penskalaan tidak hanya dirusak—tetapi juga ditulis ulang.

Dr. Tehseen Zia adalah Associate Professor Tetap di COMSATS University Islamabad, memegang gelar PhD di bidang AI dari Vienna University of Technology, Austria. Mengkhususkan diri dalam Kecerdasan Buatan, Pembelajaran Mesin, Ilmu Data, dan Visi Komputer, ia telah memberikan kontribusi yang signifikan dengan publikasi di jurnal ilmiah terkemuka. Dr. Tehseen juga memimpin berbagai proyek industri sebagai Penyelidik Utama dan menjabat sebagai Konsultan AI.