Connect with us

Kecerdasan buatan

Di Dalam Microsoft’s Phi-3 Mini: Sebuah Model AI Ringan yang Melampaui Beratnya

mm
Phi-3 : A Highly Capable Language Model Locally on Your Phone

Microsoft baru-baru ini memperkenalkan model bahasa ringan terbarunya yang disebut Phi-3 Mini, memulai trio model AI kompak yang dirancang untuk memberikan kinerja tingkat lanjut sambil cukup kecil untuk berjalan efisien pada perangkat dengan sumber daya komputasi terbatas. Dengan hanya 3,8 miliar parameter, Phi-3 Mini adalah sebagian kecil dari ukuran raksasa AI seperti GPT-4, namun itu berjanji untuk menyaingi kemampuan mereka di banyak area kunci.

Pengembangan Phi-3 Mini mewakili tonggak penting dalam upaya untuk mendemokratisasi kemampuan AI lanjutan dengan membuatnya dapat diakses pada berbagai jenis perangkat. Jejak kecilnya memungkinkan untuk diterapkan secara lokal pada smartphone, tablet, dan perangkat edge lainnya, mengatasi masalah keterlambatan dan kekhawatiran privasi yang terkait dengan model berbasis awan. Ini membuka kemungkinan baru untuk pengalaman cerdas pada perangkat di berbagai domain, dari asisten virtual dan AI konversasional hingga asisten pengkodean dan tugas pemahaman bahasa.

4-bit quantized phi-3-mini running natively on an iPhone
4-bit quantized phi-3-mini running natively on an iPhone

Di Bawah Hood: Arsitektur dan Pelatihan

Pada intinya, Phi-3 Mini adalah model decoder transformer yang dibangun atas arsitektur yang mirip dengan model Llama-2 sumber terbuka. Ini memiliki 32 lapisan, 3072 dimensi tersembunyi, dan 32 kepala perhatian, dengan panjang konteks default 4.000 token. Microsoft juga memperkenalkan versi konteks panjang yang disebut Phi-3 Mini-128K, yang memperpanjang panjang konteks hingga 128.000 token menggunakan teknik seperti LongRope.

Apa yang membedakan Phi-3 Mini, bagaimanapun, adalah metode pelatihannya. Alih-alih hanya mengandalkan kekuatan besar dataset dan daya komputasi, Microsoft telah fokus pada mengkurasi dataset pelatihan berkualitas tinggi yang padat alasan. Data ini terdiri dari data web yang disaring berat, serta data sintetis yang dihasilkan oleh model bahasa yang lebih besar.

Proses pelatihan mengikuti pendekatan dua fase. Pada fase pertama, model tersebut dipaparkan pada berbagai sumber web yang bertujuan untuk mengajarkan pengetahuan umum dan pemahaman bahasa. Fase kedua menggabungkan data web yang disaring lebih lanjut dengan data sintetis yang dirancang untuk memberikan keterampilan alasan logis dan keahlian domain khusus.

Microsoft menyebut pendekatan ini sebagai “rezim data optimal”, sebuah perbedaan dari “rezim komputasi optimal” atau “rezim over-pelatihan” yang digunakan oleh banyak model bahasa besar. Tujuannya adalah untuk mengkalibrasi data pelatihan untuk mencocokkan skala model, memberikan tingkat pengetahuan dan kemampuan alasan yang tepat sambil meninggalkan kapasitas yang cukup untuk kemampuan lain.

Kualitas model Phi-3 baru, diukur oleh kinerja pada benchmark Massive Multitask Language Understanding (MMLU)
Kualitas model Phi-3 baru, diukur oleh kinerja pada benchmark Massive Multitask Language Understanding (MMLU)

Pendekatan berbasis data ini telah membuahkan hasil, karena Phi-3 Mini mencapai kinerja luar biasa pada berbagai benchmark akademis, sering kali menyaingi atau melampaui model yang jauh lebih besar. Misalnya, itu mencetak 69% pada benchmark MMLU untuk pembelajaran dan pemahaman multitugas, dan 8,38 pada benchmark MT-bench untuk penalaran matematika – hasil yang setara dengan model seperti Mixtral 8x7B dan GPT-3.5.

Keamanan dan Keandalan

Selain kinerjanya yang mengesankan, Microsoft telah menempatkan penekanan kuat pada keamanan dan keandalan dalam pengembangan Phi-3 Mini. Model ini telah menjalani proses pelatihan pasca-pelatihan yang ketat yang melibatkan pelatihan halus yang diawasi (SFT) dan optimasi preferensi langsung (DPO).

Tahap SFT menggunakan data yang sangat terkurasi di berbagai domain, termasuk matematika, pengkodean, penalaran, percakapan, identitas model, dan keamanan. Ini membantu untuk memperkuat kemampuan model dalam area-area tersebut sambil memberikan identitas yang kuat dan perilaku etis.

Tahap DPO, di sisi lain, fokus pada mengarahkan model menjauhi perilaku yang tidak diinginkan dengan menggunakan respons yang ditolak sebagai contoh negatif. Proses ini mencakup data format percakapan, tugas penalaran, dan upaya AI yang bertanggung jawab (RAI), memastikan bahwa Phi-3 Mini mematuhi prinsip Microsoft tentang AI yang etis dan dapat dipercaya.

Untuk lebih meningkatkan profil keamanannya, Phi-3 Mini telah dikenakan pengujian ekstensif dan pengujian otomatis melintasi puluhan kategori kerusakan RAI. Tim merah independen di Microsoft secara iteratif memeriksa model, mengidentifikasi area untuk perbaikan, yang kemudian ditangani melalui dataset yang dikurasi dan pelatihan ulang.

Pendekatan multi-pronged ini telah secara signifikan mengurangi kejadian respons berbahaya, ketidakakuratan fakta, dan bias, seperti yang ditunjukkan oleh benchmark RAI internal Microsoft. Misalnya, model menunjukkan tingkat cacat rendah untuk kelanjutan konten berbahaya (0,75%) dan ringkasan (10%), serta tingkat ketidakberpijakannya rendah (0,603), menunjukkan bahwa responsnya secara kuat berakar pada konteks yang diberikan.

Aplikasi dan Kasus Penggunaan

Dengan kinerja yang mengesankan dan langkah keamanan yang kuat, Phi-3 Mini sangat cocok untuk berbagai aplikasi, terutama dalam lingkungan yang terbatas sumber daya dan skenario yang terikat keterlambatan.

Salah satu prospek paling menarik adalah penerapan asisten virtual cerdas dan AI konversasional langsung pada perangkat mobile. Dengan berjalan secara lokal, asisten ini dapat memberikan respons instan tanpa memerlukan koneksi jaringan, sambil juga memastikan bahwa data sensitif tetap berada pada perangkat, mengatasi kekhawatiran privasi.

Kemampuan penalaran Phi-3 Mini yang kuat juga membuatnya menjadi aset berharga untuk bantuan pengkodean dan pemecahan masalah matematika. Pengembang dan siswa dapat memanfaatkan dari pelengkapan kode pada perangkat, deteksi bug, dan penjelasan, memperlancar proses pengembangan dan pembelajaran.

Di luar aplikasi ini, kemampuan model yang serba guna membuka peluang di bidang seperti pemahaman bahasa, ringkasan teks, dan menjawab pertanyaan. Ukuran kecil dan efisiensinya membuatnya menjadi pilihan menarik untuk memasukkan kemampuan AI ke dalam berbagai perangkat dan sistem, dari peralatan rumah tangga pintar hingga sistem otomasi industri.

Melihat ke Depan: Phi-3 Kecil dan Phi-3 Sedang

Sementara Phi-3 Mini merupakan prestasi luar biasa dengan haknya sendiri, Microsoft memiliki rencana yang lebih besar untuk keluarga model Phi-3. Perusahaan telah mempratinjau dua model yang lebih besar, Phi-3 Kecil (7 miliar parameter) dan Phi-3 Sedang (14 miliar parameter), keduanya diharapkan untuk mendorong batas kinerja model bahasa kompak.

Phi-3 Kecil, misalnya, menggunakan tokenizer yang lebih maju (tiktoken) dan mekanisme perhatian kueri yang dikelompokkan, bersama dengan lapisan perhatian blocksparse yang baru, untuk mengoptimalkan jejak memori sambil mempertahankan kinerja pengambilan konteks panjang. Ini juga mengintegrasikan 10% data multibahasa tambahan, meningkatkan kemampuannya dalam pemahaman dan generasi bahasa di berbagai bahasa.

Phi-3 Sedang, di sisi lain, mewakili langkah besar dalam skala, dengan 40 lapisan, 40 kepala perhatian, dan dimensi penyematan 5.120. Sementara Microsoft mencatat bahwa beberapa benchmark mungkin memerlukan penyempurnaan lebih lanjut dari campuran data pelatihan untuk sepenuhnya memanfaatkan kapasitas yang meningkat ini, hasil awal sangat menjanjikan, dengan perbaikan substansial atas Phi-3 Kecil pada tugas seperti MMLU, TriviaQA, dan HumanEval.

Batasan dan Arah Masa Depan

Meskipun kemampuannya yang mengesankan, Phi-3 Mini, seperti semua model bahasa, tidak tanpa batasannya. Salah satu kelemahan paling mencolok adalah kapasitasnya yang relatif terbatas untuk menyimpan pengetahuan faktual, seperti yang dibuktikan oleh kinerjanya yang lebih rendah pada benchmark seperti TriviaQA.

Namun, Microsoft percaya bahwa batasan ini dapat dimitigasi dengan melengkapi model dengan kemampuan mesin pencari, memungkinkan untuk mengambil dan menalar informasi relevan secara on-demand. Pendekatan ini ditunjukkan dalam Hugging Face Chat-UI, di mana Phi-3 Mini dapat menggunakan pencarian untuk meningkatkan responsnya.

Area lain untuk perbaikan adalah kemampuan multibahasa model. Sementara Phi-3 Kecil telah mengambil langkah awal dengan mengintegrasikan data multibahasa tambahan, pekerjaan lebih lanjut diperlukan untuk sepenuhnya membuka potensi model kompak ini untuk aplikasi lintas bahasa.

Menghadap ke depan, Microsoft berkomitmen untuk terus maju dalam mengembangkan keluarga model Phi, mengatasi batasannya dan memperluas kemampuannya. Ini mungkin melibatkan penyempurnaan lebih lanjut dari data pelatihan dan metodologi, serta eksplorasi arsitektur dan teknik baru yang secara khusus dirancang untuk model bahasa kompak dengan kinerja tinggi.

Kesimpulan

Phi-3 Mini dari Microsoft mewakili lompatan besar dalam mendemokratisasi kemampuan AI lanjutan. Dengan memberikan kinerja tingkat lanjut dalam paket yang kompak dan efisien sumber daya, itu membuka kemungkinan baru untuk pengalaman cerdas pada perangkat di berbagai aplikasi.

Pendekatan pelatihan inovatif model, yang menekankan data berkualitas tinggi dan padat alasan daripada kekuatan komputasi murni, telah terbukti menjadi perubahan permainan, memungkinkan Phi-3 Mini untuk melampaui kelas beratnya. Digabungkan dengan langkah keamanan yang kuat dan upaya pengembangan yang berkelanjutan, keluarga model Phi-3 diposisikan untuk memainkan peran kunci dalam membentuk masa depan sistem cerdas, membuat AI lebih dapat diakses, efisien, dan dapat dipercaya daripada sebelumnya.

Ketika industri teknologi terus mendorong batas apa yang mungkin dilakukan dengan AI, komitmen Microsoft terhadap model yang ringan dan berkinerja tinggi seperti Phi-3 Mini mewakili perubahan menyegarkan dari kebijaksanaan konvensional “lebih besar adalah lebih baik.” Dengan menunjukkan bahwa ukuran bukanlah segalanya, Phi-3 Mini memiliki potensi untuk menginspirasi gelombang inovasi baru yang berfokus pada memaksimalkan nilai dan dampak AI melalui pengkuratan data yang cerdas, desain model yang tepat, dan praktik pengembangan yang bertanggung jawab.

Saya telah menghabiskan lima tahun terakhir dengan membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menarik. Minat dan keahlian saya telah membawa saya untuk berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Rasa ingin tahu saya yang terus-menerus juga telah menarik saya ke arah Natural Language Processing, sebuah bidang yang saya ingin jelajahi lebih lanjut.