Connect with us

Найкраще

10 найкращих алгоритмів машинного навчання

mm

Хоча ми живемо в часи надзвичайних інновацій у машинному навчанні з прискоренням на GPU, останні наукові роботи часто (і помітно) містять алгоритми, яким десятиліття, а в окремих випадках — 70 років. Дехто може стверджувати, що багато з цих старих методів належать до сфери «статистичного аналізу», а не машинного навчання, і вважають за краще датувати початок галузі лише 1957 роком, з винаходом перцептрона. З огляду на ступінь, в якому ці старі алгоритми підтримують та переплітаються з останніми трендами та гучними досягненнями в машинному навчанні, така позиція є спірною. Тож давайте поглянемо на деякі «класичні» будівельні блоки, що лежать в основі останніх інновацій, а також на деякі новіші алгоритми, які вже претендують на місце в залі слави ШІ.

1: Трансформери

У 2017 році Google Research очолив дослідницьку співпрацю, яка завершилася статтею Attention Is All You Need. У роботі було окреслено нову архітектуру, яка перетворила механізми уваги з «допоміжного каналу» в моделях кодувальник/декодувальник та рекурентних мережах на самостійну центральну трансформаційну технологію. Цей підхід отримав назву Трансформер і з того часу став революційною методологією в обробці природної мови (NLP), живлячи, серед багатьох інших прикладів, авторегресійну мовну модель та візитну картку ШІ — GPT-3. Трансформери елегантно вирішили проблему трансдукції послідовностей, також званої «трансформацією», яка займається перетворенням вхідних послідовностей у вихідні. Трансформер також отримує та обробляє дані безперервно, а не послідовними пакетами, що дозволяє «зберегти пам’ять», на отримання якої архітектури RNN не розраховані. Для детальнішого огляду трансформерів перегляньте нашу довідкову статтю. На відміну від рекурентних нейронних мереж (RNN), які почали домінувати в дослідженнях машинного навчання в епоху CUDA, архітектуру Трансформера також можна було легко паралелізувати, що відкрило шлях для продуктивної обробки набагато більшого корпусу даних, ніж це могли робити RNN. Популярне використання Трансформери захопили уяву громадськості у 2020 році з виходом GPT-3 від OpenAI, яка тоді мала рекордні 175 мільярдів параметрів. Це, здавалося б, приголомшливе досягнення згодом було затьмарене пізнішими проектами, такими як реліз Megatron-Turing NLG 530B від Microsoft у 2021 році, який (як випливає з назви) має понад 530 мільярдів параметрів.

A timeline of hyperscale Transformer NLP projects. Source: Microsoft

Хронологія гіпермасштабних проектів NLP на базі Трансформерів. Джерело: Microsoft

Архітектура Трансформера також перейшла з NLP у комп’ютерний зір, живлячи нове покоління фреймворків синтезу зображень, таких як CLIP та DALL-E від OpenAI, які використовують відображення домену текст>зображення для завершення неповних зображень та синтезу нових зображень з навчених доменів, серед зростаючої кількості пов’язаних додатків.

DALL-E attempts to complete a partial image of a bust of Plato. Source: https://openai.com/blog/dall-e/

DALL-E намагається завершити часткове зображення бюста Платона. Джерело: https://openai.com/blog/dall-e/

2: Generative Adversarial Networks (GANs)

Хоча трансформери отримали надзвичайне висвітлення в ЗМІ завдяки виходу та впровадженню GPT-3, Generative Adversarial Network (GAN) сама по собі стала впізнаваним брендом і, можливо, згодом стане дієсловом, як і deepfake. Вперше запропоновані у 2014 році та переважно використовувані для синтезу зображень, архітектура Generative Adversarial Network складається з Генератора та Дискримінатора. Генератор циклічно перебирає тисячі зображень у наборі даних, ітеративно намагаючись їх відтворити. Для кожної спроби Дискримінатор оцінює роботу Генератора та відправляє Генератор назад, щоб він працював краще, але не даючи жодного розуміння того, в чому полягала помилка попереднього відтворення.

Source: https://developers.google.com/machine-learning/gan/gan_structure

Джерело: https://developers.google.com/machine-learning/gan/gan_structure

Це змушує Генератор досліджувати безліч шляхів, замість того щоб слідувати потенційним глухим кутам, які виникли б, якби Дискримінатор сказав йому, де він помиляється (див. №8 нижче). До завершення навчання Генератор має детальну та всебічну карту взаємозв’язків між точками в наборі даних.

An excerpt from the researchers' accompanying video (see embed at end of article). Note that the user is manipulating the transformations with a 'grab' cursor (top left). Source:

Зі статті Improving GAN Equilibrium by Raising Spatial Awareness: новий фреймворк циклічно проходить через іноді загадковий латентний простір GAN, забезпечуючи респонсивну інструментальність для архітектури синтезу зображень. Джерело: https://genforce.github.io/eqgan/

За аналогією, це різниця між вивченням однієї буденної поїздки до центру Лондона та ретельним опануванням The Knowledge. Результатом є високорівнева колекція ознак у латентному просторі навченої моделі. Семантичним індикатором високорівневої ознаки може бути «людина», тоді як спуск через специфічність, пов’язану з ознакою, може виявити інші навчені характеристики, такі як «чоловіча» та «жіноча». На нижчих рівнях підозначки можуть розбиватися на «блондин», «європеоїд» тощо. Заплутаність є помітною проблемою в латентному просторі GAN та фреймворків кодувальник/декодувальник: чи є посмішка на згенерованому GAN жіночому обличчі заплутаною ознакою її «ідентичності» в латентному просторі, чи це паралельна гілка?

GAN-generated faces from thispersondoesnotexist. Source: https://this-person-does-not-exist.com/en

Згенеровані GAN обличчя з thispersondoesnotexist. Джерело: https://this-person-does-not-exist.com/en

Останні кілька років принесли зростаючу кількість нових дослідницьких ініціатив у цьому напрямку, можливо, прокладаючи шлях для редагування на рівні ознак у стилі Photoshop для латентного простору GAN, але наразі багато трансформацій є фактично пакетами «все або нічого». Примітно, що реліз EditGAN від NVIDIA наприкінці 2021 року досягає високого рівня інтерпретованості в латентному просторі за допомогою масок семантичної сегментації. Популярне використання Окрім їхньої (насправді досить обмеженої) участі у популярних deepfake-відео, орієнтовані на зображення/відео GAN поширилися за останні чотири роки, захоплюючи як дослідників, так і громадськість. Відстежувати запаморочливу швидкість і частоту нових релізів є складним завданням, хоча репозиторій GitHub Awesome GAN Applications має на меті надати вичерпний список. Generative Adversarial Networks теоретично можуть виводити ознаки з будь-якого чітко окресленого домену, включаючи текст.

3: SVM

Виникнувши у 1963 році, Support Vector Machine (SVM) є основним алгоритмом, який часто з’являється в нових дослідженнях. У SVM вектори відображають взаємне розташування точок даних у наборі даних, тоді як опорні вектори окреслюють межі між різними групами, ознаками або рисами.

Support vectors define the boundaries between groups. Source: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Опорні вектори визначають межі між групами. Джерело: https://www.kdnuggets.com/2016/07/support-vector-machines-simple-explanation.html

Отримана межа називається гіперплощиною. На низьких рівнях ознак SVM є двовимірним (зображення вище), але там, де визнано більшу кількість груп або типів, він стає тривимірним. <img class="wp-image-180123 size-full" src="https://www.unite.ai/wp-content

Письменник з машинного навчання, спеціаліст у галузі синтезу зображень людини. Колишній керівник досліджень контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]