кочан Изследователи откриват високоефективни подмрежи в невронни мрежи за дълбоко обучение – Unite.AI
Свържете се с нас

Изкуствен интелект

Изследователи откриват високоефективни подмрежи в рамките на невронни мрежи за дълбоко обучение

Обновено on

Невронните мрежи за дълбоко обучение често са масивни и изискват огромни количества изчислителна мощност, но ново откритие демонстрира как това може да бъде намалено, за да се изпълняват задачите по-ефективно. Джонатан Франкъл и неговият екип от Масачузетския технологичен институт излязоха с „хипотезите за лотарийни билети“, които показват как има по-икономични подмрежи в рамките на по-големите невронни мрежи. Тези подмрежи могат да изпълнят поставената задача по-ефективно с по-малко необходима изчислителна мощност, като едно от най-големите предизвикателства е намирането на тези подмрежи или спечелването на лотарийни билети, както екипът ги нарича.

Екипът откри тези подмрежи в рамките на BERT, най-добрата техника за машинно обучение за обработка на естествен език (NLP). NLP, което е подполе на изкуствения интелект (AI), отговаря за дешифрирането и анализа на човешкия език и се използва за приложения като генериране на предсказуем текст и чатботове.

BERT обаче е голям и изисква суперкомпютърна мощност, която е недостъпна за повечето потребители. С новото откритие на тези подмрежи, това може да отвори този достъп, позволявайки на повече потребители да използват технологията за разработване на NLP инструменти.

„Ние достигаме точката, в която ще трябва да направим тези модели по-икономични и по-ефективни“, казва Франкъл.

Според него това развитие може да „намали бариерите за навлизане“ на НЛП.

BERT – „Неприлично скъпо“  

BERT е фундаментален за неща като търсачката на Google и получи много внимание, откакто Google го пусна през 2018 г. Това е метод за създаване на невронни мрежи и се обучава чрез многократни опити за попълване на празния пасаж от писане. Една от най-впечатляващите характеристики на BERT е масивният набор от данни за първоначално обучение.

След това може да бъде настроен от потребителите за конкретни задачи, като например чатботове за обслужване на клиенти, но отново изисква огромни количества процесорна мощност, с възможност параметрите да достигнат 1 милиард.

„Стандартният модел на BERT в днешно време – градинският сорт – има 340 милиона параметъра“, казва Франкъл. „Това е просто неприлично скъпо. Това е далеч отвъд изчислителните възможности на вас или мен.“

Според водещия автор Tianlong Chen от Тексаския университет в Остин модели като BERT „страдат от огромен размер на мрежата“, но благодарение на новото изследване „хипотезата за лотарийния билет изглежда е решение“.

Ефективни подмрежи 

Чен и екипът потърсиха по-малък модел, разположен в рамките на BERT, и сравниха представянето на откритите подмрежи с оригиналния модел на BERT. Това беше тествано върху различни НЛП задачи, включително отговаряне на въпроси и попълване на празни думи в изречение.

Екипът откри успешни подмрежи, които бяха впечатляващите 40 до 90 процента по-тънки от оригиналния модел BERT, като действителният процент зависи от задачата. На всичкото отгоре те биха могли да ги идентифицират преди фина настройка за специфични задачи, което води до още по-ниски изчислителни разходи. Друго предимство беше, че някои от подмрежите, избрани за конкретна задача, след това можеха да бъдат преназначени за друга.

„Бях малко шокиран, че това дори проработи“, казва Франкъл. „Това не е нещо, което приемам за даденост. Очаквах много по-объркан резултат от този, който получихме.”

Според Ари Моркос, учен във Facebook AI Research, това откритие е „убедително“ и „Тези модели стават все по-разпространени. Така че е важно да разберем дали хипотезата за лотарийния билет е валидна.

Morcos също така казва, че ако тези подмрежи могат да работят, използвайки драстично по-малко изчислителна мощност, това би било „много въздействащо, като се има предвид, че тези изключително големи модели в момента са много скъпи за работа“.

„Не знам колко по-големи можем да постигнем, използвайки тези изчисления в стил суперкомпютър“, добавя Франкъл. „Ще трябва да намалим бариерата за влизане.“

„Надеждата е, че това ще намали цената, че това ще го направи по-достъпен за всички… за малките момчета, които просто имат лаптоп“, заключава той.

Изследването ще бъде представено на Конференция по невронни системи за обработка на информация.

Алекс Макфарланд е AI журналист и писател, изследващ най-новите разработки в областта на изкуствения интелект. Той е сътрудничил с множество стартиращи фирми и публикации в областта на изкуствения интелект по целия свят.