Зв'язатися з нами

Meta's Llama 3.2: переосмислення генеративного штучного інтелекту з відкритим вихідним кодом із вбудованими та мультимодальними можливостями

Штучний Інтелект

Meta's Llama 3.2: переосмислення генеративного штучного інтелекту з відкритим вихідним кодом із вбудованими та мультимодальними можливостями

mm

опублікований

 on

Недавній запуск Meta Llama 3.2, остання ітерація в серії Llama великі мовні моделі, є значним кроком в еволюції генеративної екосистеми ШІ з відкритим кодом. Це оновлення розширює можливості Llama у двох вимірах. З одного боку, Llama 3.2 дозволяє обробляти мультимодальні дані, інтегруючи зображення, текст тощо, роблячи передові можливості ШІ більш доступними для ширшої аудиторії. З іншого боку, він розширює свій потенціал розгортання на периферійних пристроях, створюючи захоплюючі можливості для додатків ШІ в режимі реального часу на пристрої. У цій статті ми дослідимо цю розробку та її наслідки для майбутнього розгортання ШІ.

Еволюція лами

Подорож Мети з Ламою почалася на початку 2023 року, і за цей час серія пережила вибухове зростання та впровадження. Починаючи з Llama 1, яка була обмежена для некомерційного використання та доступна лише для окремих дослідницьких установ, серія перейшла у сферу відкритого коду з випуском Llama 2 у 2023 році. Запуск Llama 3.1 на початку цього року став важливим кроком у цьому році. вперед в еволюції, оскільки він представив найбільшу модель з відкритим вихідним кодом із 405 мільярдами параметрів, яка є рівною або перевершує своїх власних конкурентів. Останній випуск, Llama 3.2, робить цей крок далі, представляючи нові легкі моделі, орієнтовані на бачення, створюючи штучний інтелект на пристрої та багатомодальний доступніші функції. Відданість Meta відкритості та модифікованості дозволила Llama стати провідною моделлю в спільноті відкритих кодів. Компанія вважає, що, залишаючись відданими прозорості та доступності, ми можемо ефективніше просувати інновації штучного інтелекту — не лише для розробників і компаній, але й для всіх у всьому світі.

Представляємо Llama 3.2

Llama 3.2 — це остання версія серії Llama від Meta, що включає різноманітні мовні моделі, розроблені для задоволення різноманітних вимог. Найбільші та середні моделі, включаючи 90 і 11 мільярдів параметрів, призначені для обробки мультимодальних даних, включаючи текст і зображення. Ці моделі можуть ефективно інтерпретувати діаграми, графіки та інші форми візуальних даних, що робить їх придатними для створення програм у таких сферах, як комп’ютерне бачення, аналіз документів та інструменти доповненої реальності. Легкі моделі з 1 мільярдом і 3 мільярдами параметрів розроблені спеціально для мобільних пристроїв. Ці лише текстові моделі вирізняються можливостями генерації багатомовного тексту та виклику інструментів, що робить їх високоефективними для таких завдань, як генерація з доповненим пошуком, підсумовування та створення персоналізованих додатків на основі агентів на периферійних пристроях.

Значення лами 3.2

Цей випуск Llama 3.2 можна визнати за його досягнення у двох ключових сферах.

Нова ера мультимодального ШІ

Llama 3.2 — це перша модель Meta з відкритим вихідним кодом, яка підтримує як текст, так і зображення. Це важлива подія в еволюції генеративного штучного інтелекту з відкритим кодом, оскільки вона дозволяє моделі аналізувати візуальні вхідні дані та реагувати на них разом із текстовими даними. Наприклад, тепер користувачі можуть завантажувати зображення та отримувати детальний аналіз або модифікації на основі підказок природної мови, таких як ідентифікація об’єктів або створення підписів. Марк Цукерберг наголосив на цій можливості під час запуску, заявивши, що Llama 3.2 розроблено, щоб «увімкнути багато цікавих програм, які потребують візуального розуміння». Ця інтеграція розширює сферу застосування Llama для галузей, які залежать від мультимодальної інформації, включаючи роздрібну торгівлю, охорону здоров’я, освіту та розваги.

Доступність на пристрої

Однією з видатних особливостей Llama 3.2 є її оптимізація для розгортання на пристрої, особливо в мобільних середовищах. Полегшені версії моделі з 1 мільярдом і 3 мільярдами параметрів спеціально розроблені для роботи на смартфонах та інших крайніх пристроях, що працюють на апаратному забезпеченні Qualcomm і MediaTek. Ця утиліта дозволяє розробникам створювати програми без потреби у значних обчислювальних ресурсах. Крім того, ці версії моделі чудово підходять для багатомовної обробки тексту та підтримують більшу довжину контексту в 128 Кб токенів, що дозволяє користувачам розробляти програми обробки природної мови на своїх рідних мовах. Крім того, ці моделі мають можливості виклику інструментів, що дозволяє користувачам працювати з агентськими програмами, такими як керування запрошеннями в календарі та планування подорожей безпосередньо на своїх пристроях.

Можливість локального розгортання моделей штучного інтелекту дозволяє штучному інтелекту з відкритим вихідним кодом подолати проблеми, пов’язані з хмарними обчисленнями, зокрема проблеми із затримкою, ризики безпеки, високі операційні витрати та залежність від підключення до Інтернету. Цей прогрес має потенціал для трансформації таких галузей, як охорона здоров’я, освіта та логістика, дозволяючи їм використовувати штучний інтелект без обмежень хмарної інфраструктури чи проблем конфіденційності та в ситуаціях реального часу. Це також відкриває двері для ШІ в регіонах з обмеженим підключенням, демократизуючи доступ до передових технологій.

Конкурентну перевагу

Meta повідомляє, що Llama 3.2 конкурентоспроможна з провідними моделями OpenAI і Anthropic з точки зору продуктивності. Вони стверджують, що Llama 3.2 перевершує таких конкурентів, як Claude 3-Haiku та GPT-4o-mini, у різних тестах, включаючи виконання інструкцій і завдання підсумовування вмісту. Ця конкурентна перевага життєво важлива для Meta, оскільки вона спрямована на те, щоб ШІ з відкритим кодом залишався на одному рівні з пропрієтарними моделями в галузі генеративного ШІ, що швидко розвивається.

Llama Stack: спрощення розгортання AI

Одним із ключових аспектів випуску Llama 3.2 є впровадження стека Llama. Цей набір інструментів спрощує розробникам роботу з моделями Llama в різних середовищах, включаючи налаштування на одному вузлі, локальні, хмарні та на пристрої. Llama Stack включає підтримку RAG та додатків із підтримкою інструментів, забезпечуючи гнучку комплексну структуру для розгортання генеративних моделей ШІ. Спрощуючи процес розгортання, Meta дозволяє розробникам легко інтегрувати моделі Llama у свої додатки, будь то для хмарних, мобільних чи робочих середовищ.

Bottom Line

Лама Мета 3.2 є життєво важливим моментом в еволюції генеративного штучного інтелекту з відкритим кодом, який встановлює нові стандарти доступності, функціональності та універсальності. Завдяки можливостям на пристрої та мультимодальній обробці ця модель відкриває можливості трансформації в різних галузях, від охорони здоров’я до освіти, одночасно вирішуючи критичні проблеми, такі як конфіденційність, затримка та обмеження інфраструктури. Надаючи можливість розробникам розгортати розширений штучний інтелект локально та ефективно, Llama 3.2 не тільки розширює сферу застосування штучного інтелекту, але й демократизує доступ до передових технологій у глобальному масштабі.

Доктор Техсін Зія є штатним доцентом Університету COMSATS Ісламабад, має ступінь доктора філософії зі штучного інтелекту у Віденському технологічному університеті, Австрія. Спеціалізуючись на штучному інтелекті, машинному навчанні, науці про дані та комп’ютерному зорі, він зробив значний внесок публікаціями в авторитетних наукових журналах. Доктор Техсін також керував різними промисловими проектами як головний дослідник і працював консультантом зі штучного інтелекту.