Штучний інтелект
Нова бібліотека Neural Tangent від Google дає вченим-даних “безпрецедентний” погляд на моделі

Google розробила нову відкриту бібліотеку, призначену для розкриття “чорної скриньки” машинного навчання та надання інженерам більшого розуміння того, як працюють їхні системи машинного навчання. Як повідомляє VentureBeat, команда дослідників Google стверджує, що бібліотека може надати “безпрецедентний” погляд на поведінку моделей машинного навчання.
Нейронні мережі працюють через нейрони, що містять математичні функції, які перетворюють дані різними способами. Нейрони в мережі з’єднані між собою у шари, і нейронні мережі мають глибину та ширину. Глибина нейронної мережі контролюється кількістю шарів, і різні шари мережі регулюють з’єднання між нейронами, впливаючи на те, як обробляються дані при переміщенні між шарами. Кількість нейронів у шарі визначає ширину шару. За словами інженера-дослідника Google Романа Новака та старшого наукового співробітника Google Семюеля С. Шонхольца, ширина моделей тісно пов’язана з регулярною, повторюваною поведінкою. У блог-пості двоє дослідників пояснили, що збільшення ширини нейронних мереж робить їх поведінку більш регулярною та легшою для інтерпретації.
Існує інший тип моделей машинного навчання, званий гаусовським процесом. Гаусовський процес – це стохастичний процес, який можна представити у вигляді багатовимірного нормального розподілу. З гаусовським процесом кожна скінченна лінійна комбінація змінних буде нормально розподілена. Це означає, що можна представити надзвичайно складні взаємодії між змінними у вигляді інтерпретовних лінійних алгебраїчних рівнянь, а тому можна вивчати поведінку ІІ через цю лінзу. Як саме моделі машинного навчання пов’язані з гаусовськими процесами? Моделі машинного навчання, що мають нескінченну ширину, збігаються з гаусовським процесом.
Однак, хоча можна інтерпретувати моделі машинного навчання через призму гаусовського процесу, для цього потрібно отримати граничний випадок нескінченної ширини моделі. Це складна серія обчислень, яку потрібно виконувати для кожної окремої архітектури. Щоб полегшити ці обчислення та зробити їх швидшими, команда дослідників Google розробила Neural Tangents. Neural Tangents дозволяє вченим-даним використовувати лише кілька рядків коду та тренувати кілька мереж з нескінченною шириною одночасно. Часто тренуються кілька нейронних мереж на одних і тих же наборах даних, а їхні передбачення усереднюються, щоб отримати більш надійне передбачення, яке не чутливе до проблем, які можуть виникнути в окремих моделях. Такий підхід називається ансамблевим навчання. Одним з недоліків ансамблевого навчання є те, що воно часто обчислювально дороге. Однак, коли тренується мережа з нескінченною шириною, ансамбль описується гаусовським процесом, а дисперсія та середнє значення можна розрахувати.
Для порівняння було порівняно три різні архітектури нейронних мереж з нескінченною шириною, а результати порівняння були опубліковані у блог-пості. Загалом, результати ансамблевих мереж, керованих гаусовськими процесами, схожі на результати звичайних нейронних мереж з кінцевою шириною:
Як пояснює команда дослідників у блог-пості:
“Ми бачимо, що, наслідуючи скінченні нейронні мережі, мережі з нескінченною шириною слідують подібній ієрархії продуктивності, при цьому повністю з’єднані мережі працюють гірше, ніж конволюційні мережі, які, в свою чергу, працюють гірше, ніж широкі резидуальні мережі. Однак, на відміну від звичайної підготовки, динаміка навчання цих моделей повністю описується у закритій формі, що дозволяє [новий] погляд на їхню поведінку”.
Випуск Neural Tangents, здається, був запланований на час проведення TensorFlow Dev Summit. На цьому саміті збираються інженери-машинного навчання, які використовують платформу Google TensorFlow. Аннонс Neural Tangents також відбувся не довго після оголошення про TensorFlow Quantum.
Neural Tangents була розміщена на GitHub, а для тих, хто зацікавлений, доступний ноутбук Google Colaboratory та навчальний посібник.












