tunggul 5 LLM Open Source Pangalusna (Mei 2024) - Unite.AI
Connect with kami
Array ( [ID] => 1 [user_firstname] => Antoine [user_lastname] => Tardif [nickname] => Antoine Tardif [user_nicename] => admin [display_name] => Antoine Tardif [user_email] => [email dijaga]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => Mitra pendiri unite.AI & anggota Déwan Téknologi Forbes, Antoine nyaéta a futurist anu gairah ngeunaan masa depan AI & robotics. Anjeunna oge pangadeg Securities.io, ramatloka nu museurkeun kana investasi dina téhnologi disruptive. [user_avatar] => mm
)

Pangalusna

5 LLM Sumber Terbuka Pangalusna (Mei 2024)

diropéa on
Open Source LLMs

Dina dunya intelijen buatan (AI) anu ngembang pesat, Modél Basa ageung (LLM) parantos muncul salaku batu pondasi, nyetir inovasi sareng ngarobih deui cara urang berinteraksi sareng téknologi.

Salaku model ieu jadi beuki canggih, aya hiji tekenan tumuwuh dina democratizing aksés ka aranjeunna. Modél open-source, hususna, maénkeun peran pivotal dina demokratisasi ieu, nawiskeun panalungtik, pamekar, jeung peminat sarua kasempetan pikeun delve jero kana intricacies maranéhanana, fine-Ngepaskeun aranjeunna keur tugas husus, atawa malah ngawangun on yayasan maranéhanana.

Dina blog ieu, urang bakal ngajalajah sababaraha LLM open-source luhur anu ngadamel gelombang di komunitas AI, masing-masing mawa kakuatan sareng kamampuan unikna kana méja.

1. Lemah 2

Meta's Llama 2 mangrupakeun tambahan groundbreaking kana lineup model AI maranéhanana. Ieu mah sakadar model sejen; Éta dirancang pikeun nyayogikeun sajumlah aplikasi anu canggih. Data palatihan Llama 2 luas sareng rupa-rupa, ngajantenkeun kamajuan anu signifikan tibatan anu miheulaan na. Keragaman dina palatihan ieu mastikeun yén Llama 2 sanés ngan ukur paningkatan paningkatan tapi léngkah monumental nuju masa depan interaksi anu didorong ku AI.

Kolaborasi antara Meta jeung Microsoft geus dimekarkeun horizons pikeun Llama 2. Model open-source ayeuna dirojong dina platform kawas Azure jeung Windows, dimaksudkeun pikeun nyadiakeun pamekar jeung organisasi jeung parabot pikeun nyieun generative pangalaman AI-disetir. Kerjasama ieu negeskeun dedikasi duanana perusahaan pikeun ngajantenkeun AI langkung diaksés sareng kabuka pikeun sadayana.

Llama 2 teu ngan hiji panerusna model Llama aslina; eta ngagambarkeun shift paradigma dina arena chatbot. Bari model Llama munggaran revolusioner dina generating téks na kode, kasadiaan na diwatesan pikeun nyegah nyalahgunakeun. Llama 2, di sisi séjén, disetel ka ngahontal panongton lega. Éta dioptimalkeun pikeun platform sapertos AWS, Azure, sareng platform hosting modél AI Hugging Face. Sumawona, sareng kolaborasi Meta sareng Microsoft, Llama 2 siap pikeun ngadamel tandana henteu ngan ukur dina Windows tapi ogé dina alat anu didamel ku sistem-on-chip Snapdragon Qualcomm.

Kasalametan aya dina jantung desain Llama 2. Ngakuan tangtangan anu disanghareupan ku modél basa anu ageung sapertos GPT, anu kadang ngahasilkeun kontén anu nyasabkeun atanapi ngabahayakeun, Meta parantos nyandak ukuran anu éksténsif pikeun mastikeun réliabilitas Llama 2. Modél ieu geus ngalaman latihan ketat pikeun ngaleutikan 'halusinasi', misinformation, sarta biases.

Keunggulan LLaMa 2:

  • Data Pelatihan Rupa-rupa: Data latihan Llama 2 sacara éksténsif sareng variatif, mastikeun pamahaman sareng kinerja anu komprehensif.
  • Kolaborasi sareng Microsoft: Llama 2 dirojong dina platform sapertos Azure sareng Windows, ngalegaan ruang lingkup aplikasina.
  • Kasadiaan Buka: Teu kawas miheulaan na, Llama 2 sadia pikeun panongton lega, siap pikeun fine-tuning dina sababaraha platform.
  • Desain Kaamanan-Centric: Meta geus emphasized kaamanan, mastikeun yén Llama 2 ngahasilkeun hasil akurat jeung dipercaya bari ngaminimalkeun outputs ngabahayakeun.
  • Vérsi anu dioptimalkeun: Llama 2 asalna dina dua vérsi utama - Llama 2 sareng Llama 2-Chat, sareng anu terakhir dirancang khusus pikeun paguneman dua arah. Vérsi ieu rupa-rupa pajeulitna ti 7 milyar nepi ka 70 milyar parameter.
  • Latihan ditingkatkeun: Llama 2 dilatih dina dua juta tokens, ngaronjat signifikan tina Llama aslina 1.4 triliun tokens.

2. Bloom

Dina 2022, saatos usaha kolaborasi global ngalibetkeun sukarelawan ti langkung ti 70 nagara sareng ahli ti Hugging Face, proyék BLOOM diumumkeun. Modél basa badag ieu (LLM), dijieun ngaliwatan inisiatif lila-taun, dirancang pikeun generasi téks autoregressive, sanggup manjangkeun ajakan téks dibikeun. Éta dilatih dina korpus data téks anu ageung ngagunakeun kakuatan komputasi anu ageung.

Debut BLOOM mangrupikeun léngkah anu penting pikeun ngajantenkeun téknologi AI generatif langkung diaksés. Salaku LLM open-source, éta gaduh 176 milyar parameter, janten salah sahiji anu paling hebat di kelasna. BLOOM gaduh kamahéran pikeun ngahasilkeun téks anu koheren sareng tepat dina 46 basa sareng 13 basa pamrograman.

Proyék ieu nekenkeun transparansi, ngamungkinkeun aksés umum kana kode sumber sareng data pelatihan. Katerbukaan ieu ngajak pamariksaan, pamanfaatan, sareng paningkatan modél.

Diaksés tanpa biaya ngaliwatan platform Hugging Face, BLOOM nangtung salaku bukti pikeun inovasi kolaborasi di AI.

Keunggulan Bloom:

  • Kamampuh Multilingual: BLOOM mahér dina ngahasilkeun téks dina 46 basa sareng 13 basa pamrograman, nunjukkeun rentang linguistikna anu lega.
  • Aksés Sumber Terbuka: Kode sumber model sareng data pelatihan sayogi umum, promosi transparansi sareng perbaikan kolaborasi.
  • Generasi téks Autoregressive: Dirancang pikeun neraskeun téks tina pituduh anu dipasihkeun, BLOOM unggul dina ngalegaan sareng ngalengkepan urutan téks.
  • Jumlah Parameter Masif: Kalayan 176 milyar parameter, BLOOM nangtung salaku salah sahiji LLM open-source anu paling kuat anu aya.
  • Kolaborasi Global: Dimekarkeun ngaliwatan proyék lila-taun kalayan kontribusi ti sukarelawan sakuliah leuwih ti 70 nagara jeung peneliti Hugging Face.
  • Aksesibilitas Gratis: Pamaké tiasa ngaksés sareng ngagunakeun BLOOM gratis ngalangkungan ékosistem Hugging Face, ningkatkeun démokrasina dina widang AI.
  • Pelatihan Skala Industri: Modél ieu dilatih dina jumlah badag data téks ngagunakeun sumberdaya komputasi signifikan, mastikeun kinerja mantap.

3. MPT-7B

Yayasan MosaicML parantos masihan kontribusi anu penting pikeun rohangan ieu kalayan ngenalkeun MPT-7B, LLM open-source panganyarna na. MPT-7B, akronim pikeun MosaicML Pretrained Transformer, mangrupikeun modél trafo gaya GPT, ngan ukur dekoder. Modél ieu gaduh sababaraha paningkatan, kalebet palaksanaan lapisan anu dioptimalkeun kinerja sareng parobahan arsitéktur anu mastikeun stabilitas latihan anu langkung ageung.

Fitur anu menonjol tina MPT-7B nyaéta palatihanna dina set data éksténsif anu ngandung 1 triliun token téks sareng kode. Latihan anu ketat ieu dilaksanakeun dina platform MosaicML salami 9.5 dinten.

Sifat open-source tina MPT-7B nempatkeun éta salaku alat anu berharga pikeun aplikasi komérsial. Éta gaduh poténsi pikeun mangaruhan sacara signifikan analitik prediktif sareng prosés-nyieun kaputusan usaha sareng organisasi.

Salian modél dasar, MosaicML Foundations ogé ngaluarkeun modél khusus anu disaluyukeun pikeun tugas-tugas khusus, sapertos MPT-7B-Instruct pikeun instruksi pondok anu di handap, MPT-7B-Chat pikeun generasi dialog, sareng MPT-7B-StoryWriter-65k+ pikeun nyieun carita panjang.

Perjalanan pangembangan MPT-7B komprehensif, sareng tim MosaicML ngatur sadaya tahapan tina persiapan data dugi ka panyebaran dina sababaraha minggu. Datana diturunkeun tina sababaraha repositori, sareng tim ngagunakeun alat sapertos EleutherAI's GPT-NeoX sareng tokenizer 20B pikeun mastikeun campuran latihan anu variatif sareng komprehensif.

Fitur Utama Tinjauan MPT-7B:

  • Lisensi komérsial: MPT-7B ieu dilisensikeun pikeun pamakéan komérsial, sahingga hiji asset berharga pikeun usaha.
  • Data Pelatihan éksténsif: Modél boasts latihan dina dataset vast 1 triliun tokens.
  • Penanganan Input Panjang: MPT-7B dirancang pikeun ngolah input anu panjang pisan tanpa kompromi.
  • Laju sareng Efisiensi: Modél ieu dioptimalkeun pikeun latihan gancang sarta inferensi, mastikeun hasil timely.
  • Kodeu Sumber Terbuka: MPT-7B hadir kalawan kode latihan open-source efisien, promosi transparansi jeung betah pamakéan.
  • Keunggulan Komparatif: MPT-7B geus nunjukkeun kaunggulan leuwih model open-source sejenna dina rentang 7B-20B, kalawan kualitas cocog LLaMA-7B.

4. alap-alap

Falcon LLM, mangrupikeun modél anu gancang naék ka luhur hierarki LLM. Falcon LLM, khususna Falcon-40B, mangrupikeun LLM dasar anu dilengkepan ku 40 milyar parameter sareng parantos dilatih dina token hiji triliun anu pikaresepeun. Ieu ngoperasikeun salaku modél autoregressive decoder-hijina, nu dasarna hartina prediksi token saterusna dina runtuyan dumasar kana tokens saméméhna. Arsitéktur ieu ngingetkeun kana modél GPT. Utamana, arsitéktur Falcon parantos nunjukkeun prestasi anu langkung saé tibatan GPT-3, ngahontal prestasi ieu ngan ukur 75% tina anggaran komputasi latihan sareng meryogikeun komputasi anu langkung sakedik salami inferensi.

Tim di Institut Inovasi Téhnologi nempatkeun tekenan anu kuat dina kualitas data nalika pamekaran Falcon. Ngakuan sensitipitas LLM pikeun ngalatih kualitas data, aranjeunna ngawangun pipa data anu diskalakeun ka puluhan rébu inti CPU. Ieu ngamungkinkeun pikeun ngolah gancang sareng ékstraksi eusi kualitas luhur tina wéb, dihontal ku prosés nyaring sareng deduplikasi anu éksténsif.

Salian Falcon-40B, TII ogé ngenalkeun versi anu sanés, kalebet Falcon-7B, anu ngagaduhan 7 milyar parameter sareng parantos dilatih dina 1,500 milyar token. Aya ogé model husus kawas Falcon-40B-Instruct na Falcon-7B-Instruct, tailored pikeun tugas husus.

Latihan Falcon-40B mangrupikeun prosés anu éksténsif. Modél ieu dilatih dina dataset RefinedWeb, dataset wéb Inggris anu masif anu diwangun ku TII. Dataset ieu diwangun dina luhureun CommonCrawl sareng ngalaman panyaring anu ketat pikeun mastikeun kualitas. Sakali modél ieu disiapkeun, éta disahkeun ngalawan sababaraha tolok ukur open-source, kalebet EAI Harness, HELM, sareng BigBench.

Fitur Utama Tinjauan Falcon LLM:

  • Parameter éksténsif: Falcon-40B dilengkepan 40 milyar parameter, mastikeun diajar sareng kinerja komprehensif.
  • Modél Autoregressive Decoder-Ngan: Arsitéktur ieu ngamungkinkeun Falcon pikeun ngaduga token salajengna dumasar kana anu sateuacana, sami sareng modél GPT.
  • Performance unggulan: Falcon outperforms GPT-3 bari ngamangpaatkeun ngan 75% tina anggaran latihan ngitung.
  • Pipa Data Kualitas Luhur: Pipa data TII mastikeun ékstraksi eusi kualitas luhur tina wéb, anu penting pikeun palatihan modél.
  • Rupa-rupa Model: Salian Falcon-40B, TII nawiskeun Falcon-7B sareng modél khusus sapertos Falcon-40B-Instruct sareng Falcon-7B-Instruct.
  • Kasadiaan Sumber Terbuka: Falcon LLM parantos open-sourced, ngamajukeun aksésibilitas sareng inklusivitas dina domain AI.

5. Vicuna-13B

LMSYS ORG geus nyieun tanda signifikan dina realm of open-source LLMs jeung bubuka Vicuna-13B. Chatbot open-source ieu parantos dilatih sacara saksama ku LLaMA nyaluyukeun kana paguneman anu dibagikeun ku pangguna anu sumberna tina ShareGPT. Evaluasi awal, kalayan GPT-4 bertindak salaku hakim, nunjukkeun yén Vicuna-13B ngahontal langkung ti 90% kualitas modél anu kasohor sapertos OpenAI ChatGPT sareng Google Bard.

Impressively, Vicuna-13B outperforms model kasohor lianna kayaning LLaMA na Stanford Alpaca dina leuwih 90% kasus. Sakabéh prosés palatihan pikeun Vicuna-13B dilaksanakeun kalayan biaya sakitar $300. Pikeun anu resep ngajalajah kamampuanana, kodeu, timbangan, sareng demo online parantos disayogikeun sacara umum pikeun tujuan non-komersial.

Modél Vicuna-13B parantos disampurnakeun sareng 70K obrolan ChatGPT anu dibagikeun ku pangguna, ngamungkinkeun éta ngahasilkeun réspon anu langkung rinci sareng terstruktur. Kualitas réspon ieu tiasa dibandingkeun sareng ChatGPT. Evaluating chatbots, kumaha oge, mangrupakeun usaha kompléks. Kalayan kamajuan dina GPT-4, aya rasa panasaran anu ningkat ngeunaan poténsina pikeun janten kerangka évaluasi otomatis pikeun generasi patokan sareng penilaian kinerja. Papanggihan awal nunjukkeun yén GPT-4 tiasa ngahasilkeun jajaran anu konsisten sareng penilaian anu lengkep nalika ngabandingkeun réspon chatbot. Evaluasi awal dumasar kana GPT-4 nunjukkeun yén Vicuna ngahontal 90% kamampuan modél sapertos Bard/ChatGPT.

Ihtisar Fitur Utama Vicuna-13B:

  • Alam Sumber Terbuka: Vicuna-13B sayogi pikeun aksés umum, promosi transparansi sareng partisipasi masarakat.
  • Data Pelatihan éksténsif: Modelna parantos dilatih dina 70K paguneman anu dibagi ku pangguna, mastikeun pamahaman komprehensif ngeunaan interaksi anu rupa-rupa.
  • Prestasi Kompetitif: Kinerja Vicuna-13B sajajar sareng pamimpin industri sapertos ChatGPT sareng Google Bard.
  • Pelatihan Éféktif Biaya: Sakabéh prosés palatihan pikeun Vicuna-13B dilaksanakeun kalayan béaya rendah sakitar $300.
  • Fine-Tuning dina LLaMA: Modélna parantos disampurnakeun dina LLaMA, mastikeun kinerja ditingkatkeun sareng kualitas réspon.
  • Kasadiaan Demo Online: Demo online interaktif sayogi pikeun pangguna pikeun nguji sareng ngalaman kamampuan Vicuna-13B.

Alam Ngembangna Modél Basa Gedé

Wewengkon Modél Basa Gedé téh lega sareng terus-terusan ngembang, kalayan unggal modél énggal ngadorong wates-wates naon waé anu mungkin. Sifat open-source tina LLM anu dibahas dina blog ieu henteu ngan ukur nunjukkeun sumanget kolaborasi komunitas AI tapi ogé nyayogikeun jalan pikeun inovasi anu bakal datang.

Modél-model ieu, tina kamampuan chatbot Vicuna dugi ka métrik kinerja unggul Falcon, ngagambarkeun puncak téknologi LLM ayeuna. Nalika urang terus nyaksian kamajuan gancang dina widang ieu, écés yén modél open-source bakal maénkeun peran anu penting dina ngawangun masa depan AI.

Naha anjeun panaliti anu berpengalaman, peminat AI anu mekar, atanapi anu panasaran ngeunaan poténsi modél ieu, teu aya waktos anu langkung saé pikeun teuleum sareng ngajalajah kemungkinan anu ageung anu ditawarkeunana.

Alex McFarland mangrupikeun wartawan AI sareng panulis ngajalajah kamajuan panganyarna dina intelijen buatan. Anjeunna parantos kolaborasi sareng seueur ngamimitian AI sareng publikasi di sakuliah dunya.

Mitra pendiri unite.AI & anggota tina Déwan Téknologi Forbes, Antoine nyaéta a futurist anu gairah ngeunaan masa depan AI & robotics.

Anjeunna oge pangadeg Securities.io, ramatloka nu museurkeun kana investasi dina téhnologi disruptive.