Штучний інтелект
Meta’s Llama 3.2: Переосмислення відкритого генеративного штучного інтелекту з можливостями на пристрої та багатомодальними можливостями
Нещодавнє запуск Meta’s Llama 3.2, остання ітерація в серії Llama великих мовних моделей, є суттєвим кроком у розвитку відкритого генеративного штучного інтелекту. Ця оновлена версія розширює можливості Llama у двох напрямках. З одного боку, Llama 3.2 дозволяє обробляти багатомодальні дані – інтегруючи зображення, текст та інше – роблячи передові можливості штучного інтелекту більш доступними для широкої аудиторії. З іншого боку, вона розширює потенціал розгортання на пристроях, створюючи цікаві можливості для застосунків штучного інтелекту в реальному часі. У цій статті ми розглянемо цей розвиток та його наслідки для майбутнього розгортання штучного інтелекту.
Еволюція Llama
Подорож Meta з Llama почалася на початку 2023 року, і за цей час серія пережила експоненційний рост та прийняття. Починаючи з Llama 1, який був обмежений некомерційним використанням і був доступний лише для вибраних дослідницьких інститутів, серія перейшла в відкритий джерельний реалм з випуском Llama 2 у 2023 році. Запуск Llama 3.1 на початку цього року був суттєвим кроком вперед у розвитку, оскільки він представив найбільшу відкриту модель з 405 мільярдами параметрів, яка є на рівні або перевищує своїх пропріетарних конкурентів. Останній випуск, Llama 3.2, робить ще один крок вперед, вводячи нові легкі та орієнтовані на зір моделі, роблячи штучний інтелект на пристрої та багатомодальні функції більш доступними. Пристрасть Meta до відкритості та модифікованості дозволила Llama стати лідером у відкритому джерельному співтоваристві. Компанія вважає, що залишаючись вірними прозорості та доступності, ми можемо більш ефективно рухати інновації штучного інтелекту вперед – не тільки для розробників та бізнесу, але і для всіх у світі.
Представлення Llama 3.2
Llama 3.2 – це остання версія серії Llama Meta, яка включає в себе різноманітні мовні моделі, розроблені для задоволення різних вимог. Найбільші та середні моделі, включаючи 90 та 11 мільярдів параметрів, розроблені для обробки багатомодальних даних, включаючи текст та зображення. Ці моделі можуть ефективно інтерпретувати графіки, діаграми та інші форми візуальних даних, роблячи їх придатними для будівництва застосунків у таких областях, як комп’ютерний зір, аналіз документів та інструменти доповненої реальності. Легкі моделі, що мають 1 мільярд та 3 мільярди параметрів, прийняті конкретно для мобільних пристроїв. Ці текстові моделі досконалі у багатомовному текстовому поколінні та виклику інструментів, роблячи їх високоефективними для завдань, таких як генерація з використанням інструментів, підсумовування та створення персоналізованих агентських застосунків на пристроях.
Значення Llama 3.2
Цей випуск Llama 3.2 можна визначити за його досягненнями у двох ключових областях.
Нова ера багатомодального штучного інтелекту
Llama 3.2 – це перша відкрита модель Meta, яка володіє можливостями обробки тексту та зображень. Це суттєвий розвиток у розвитку відкритого генеративного штучного інтелекту, оскільки він дозволяє моделі аналізувати та реагувати на візуальні входи поряд з текстовими даними. Наприклад, користувачі тепер можуть завантажувати зображення та отримувати детальний аналіз або модифікації на основі природної мови, таких як ідентифікація об’єктів або генерація підписів. Марк Цукерберг підкреслив цю можливість під час запуску, заявивши, що Llama 3.2 призначена для “забезпечення багатьох цікавих застосунків, які вимагають візуального розуміння” . Ця інтеграція розширює сферу застосування Llama для галузей, що залежать від багатомодальної інформації, включаючи роздрібну торгівлю, охорону здоров’я, освіту та розваги.
Функціональність на пристрої для доступності
Однією з видатних особливостей Llama 3.2 є її оптимізація для розгортання на пристроях, особливо у мобільних середовищах. Легкі версії моделі з 1 мільярдом та 3 мільярдами параметрів розроблені конкретно для виконання на смартфонах та інших пристроях, оснащених апаратним забезпеченням Qualcomm та MediaTek. Ця утиліта дозволяє розробникам створювати застосунки без потреби у великих обчислювальних ресурсах. Крім того, ці версії моделі досконалі у багатомовній текстовій обробці та підтримують довшу довжину контексту 128К токенів, дозволяючи користувачам розробляти застосунки обробки природної мови у своїй рідній мові. Крім того, ці моделі мають можливість виклику інструментів, дозволяючи користувачам займатися агентськими застосунками, такими як керування календарем та планування поїздок безпосередньо на своїх пристроях.
Спроможність розгортання моделей штучного інтелекту локально дозволяє відкритому штучному інтелекту подолати виклики, пов’язані з хмарними обчисленнями, включаючи проблеми затримки, ризики безпеки, високі операційні витрати та залежність від інтернет-з’єднання. Цей розвиток має потенціал трансформувати галузі, такі як охорону здоров’я, освіту та логістику, дозволяючи їм застосовувати штучний інтелект без обмежень хмарної інфраструктури або проблем з приватністю, а також у реальних ситуаціях. Це також відкриває двері для штучного інтелекту, щоб досягти регіонів з обмеженою підключеністю, демократизуючи доступ до передових технологій.
Конкурентна перевага
Meta повідомляє, що Llama 3.2 показала конкурентоспроможність проти лідируючих моделей від OpenAI та Anthropic за показниками продуктивності. Вони стверджують, що Llama 3.2 перевершує конкурентів, таких як Claude 3-Haiku та GPT-4o-mini, у різних бенчмарках, включаючи завдання виконання інструкцій та підсумовування контенту. Ця конкурентна перевага є важливою для Meta, оскільки вона спрямована на забезпечення того, щоб відкритий штучний інтелект залишався на рівні з пропріетарними моделями у швидкозмінному полі генеративного штучного інтелекту.
Стек Llama: спрощення розгортання штучного інтелекту
Однією з ключових особливостей випуску Llama 3.2 є введення Стеку Llama. Цей набір інструментів робить роботу з моделями Llama простішою для розробників у різних середовищах, включаючиSingleNode, локальні, хмарні та на-пристроївські установки. Стек Llama включає підтримку RAG та інструментів, що дозволяють створювати гнучку та комплексну основу для розгортання моделей генеративного штучного інтелекту. Спрощуючи процес розгортання, Meta дозволяє розробникам без зусиль інтегрувати моделі Llama у свої застосунки, незалежно від того, чи це хмарне, мобільне чи настільне середовище.
Висновок
Meta’s Llama 3.2 – це суттєвий момент у розвитку відкритого генеративного штучного інтелекту, встановлюючи нові стандарти для доступності, функціональності та універсальності. З можливостями на пристрої та багатомодальними можливостями, ця модель відкриває трансформаційні можливості у галузях, починаючи від охорони здоров’я та закінчуючи освітою, а також вирішуючи критичні проблеми, такі як приватність, затримка та обмеження інфраструктури. Дозволяючи розробникам розгортати передові штучні інтелекти локально та ефективно, Llama 3.2 не тільки розширює сферу застосування застосунків штучного інтелекту, але і демократизує доступ до передових технологій у глобальному масштабі.


