Интервюта

Дилън Фокс, главен изпълнителен директор и основател на AssemblyAI – Серия интервюта

Публикуван

Преди 2 години

Септември 14, 2022

Дилън Фокс е главен изпълнителен директор и основател на Сглобяване AI, платформа, която автоматично преобразува аудио и видео файлове и аудио потоци на живо в текст с API на AssemblyAI's Speech-to-Text.

Какво първоначално ви привлече към машинното обучение?

Започнах, като се научих да програмирам и присъствах на Python Meetups във Вашингтон, където учих в колеж. По време на курсовете в колежа открих, че клоня повече към проблеми с програмирането от типа на алгоритмите, което естествено ме доведе до машинно обучение и НЛП.

Преди да създадете AssemblyAI, бяхте старши софтуерен инженер в Cisco, върху какво работехте?

В Cisco бях старши софтуерен инженер, фокусиран върху машинното обучение за техните продукти за сътрудничество.

Как работата ви в Cisco и проблем с набавянето на технология за разпознаване на реч ви вдъхновиха да стартирате AssemblyAI?

В някои от предишните ми работни места имах възможността да работя по много проекти за AI, включително няколко проекта, които изискваха разпознаване на реч. Но всички компании, предлагащи разпознаване на реч като услуга, бяха безумно остарели, трудно можеше да се купи нещо от тях и използваха остарели AI технологии.

Тъй като започнах да се интересувам все повече и повече от изследванията на AI, забелязах, че се работи много в областта на разпознаването на реч и колко бързо се подобряват изследванията. Така че това беше комбинация от фактори, които ме вдъхновиха да си помисля: „Какво ще стане, ако можете да изградите компания за API в стил Twilio, използвайки най-новите изследвания на AI, което просто е много по-лесно за разработчиците за достъп до най-съвременните AI модели за реч признание, с много по-добро изживяване за разработчици.“

И оттам идва идеята за Сглобяване AI израснал.

Кое е най-голямото предизвикателство зад изграждането на точна и надеждна технология за разпознаване на реч?

Цената и талантът са най-големите предизвикателства, с които всяка компания трябва да се справи, когато създава точна и надеждна технология за разпознаване на реч.

Придобиването на данните е скъпо и обикновено се нуждаете от стотици хиляди часове, за да изградите стабилна система за разпознаване на реч. Не само това, компютърните изисквания са огромни за обучение. И обслужването на тези модели в производството също е скъпо и изисква специализиран талант за оптимизиране и икономичност.

Изграждането на тези технологии също изисква специализиран набор от умения, който е трудно да се намери. Това е голяма причина клиентите да идват при нас за мощни AI модели, които проучваме, обучаваме и внедряваме вътрешно. Те получават достъп до години изследвания на най-съвременните AI модели за ASR и NLP, всички с прост API.

Извън чистото транскрибиране на аудио и видео съдържание AssemblyAI предлага допълнителни модели, можете ли да обсъдите какви са тези модели?

Нашият пакет от AI модели се простира отвъд просто асинхронна транскрипция в реално време. Ние наричаме тези допълнителни модели модели на Audio Intelligence, тъй като те помагат на клиентите да анализират и разбират по-добре аудио данните.

Нашият модел за обобщение предоставя цялостно резюме, както и обобщения с времеви код, които автоматично сегментират и генерират резюме за всяка „глава“, когато темите в разговор се променят (подобно на главите в YouTube).

Нашият модел за анализ на настроението открива настроението на всяко изречение от речта, произнесено в аудио файлове. Всяко изречение в препис може да бъде маркирано като положително, отрицателно или неутрално.

Нашият модел за откриване на обекти идентифицира широк набор от обекти, които се изговарят в аудио файлове, като имена на лица или компании, имейл адреси, дати и местоположения.

Нашият модел за откриване на теми етикетира темите, които се говорят в аудио и видео файлове. Предвидените етикети на теми следват стандартизираната таксономия на IAB, което ги прави подходящи за контекстно насочване.

Нашият модел за модериране на съдържание открива чувствително съдържание в аудио и видео файлове — като реч на омразата, насилие, чувствителни социални въпроси, алкохол, наркотици и др.

Кои са някои от най-големите случаи на употреба за компании, използващи AssemblyAI?

Най-големите случаи на употреба, които компаниите имат за AssemblyAI, обхващат четири категории: телефония, видео, виртуални срещи и медии.

CallRail е чудесен пример за клиент в Телефония space, който използва AI моделите на AssemblyAI — Core Transcription, Automatic Transcript Highlights и PII Redaction — за да достави мощно решение Conversational Intelligence на своите клиенти.

По същество CallRail вече може автоматично да извежда и дефинира ключово съдържание в техните телефонни обаждания към своите клиенти в мащаб – ключово съдържание като специфични клиентски заявки, често задавани въпроси и често използвани ключови думи и фрази. Нашият модел за редактиране на PII им помага автоматично да откриват и премахват чувствителни данни, намерени в текста на преписа (напр. номера на социално осигуряване, номера на кредитни карти, лични адреси и други).

Видео Случаите на използване варират от платформи за стрийминг на видео до видео редактори като Veed, които използват моделите за основна транскрипция на AssemblyAI, за да опростят процеса на редактиране на видео за потребителите. Veed позволява на своите потребители да транскрибират своите видеоклипове и да ги редактират директно, като използват надписите.

In Виртуални срещи, компаниите за транскрипция на срещи като Fathom използват AssemblyAI за изграждане на интелигентни функции, които помагат на техните потребители да транскрибират и подчертават ключовите моменти от техните разговори в Zoom, насърчавайки по-добра ангажираност на срещата и елиминирайки досадните задачи по време и след срещи (напр. водене на бележки).

In Материали, виждаме например платформи за хостване на подкасти, използвайки нашите модели за модериране на съдържание и откриване на теми, така че да могат да предложат по-добри рекламни инструменти за случаи на използване на безопасността на марката и да осигурят приходи от генерирано от потребителите съдържание с динамични реклами.

AssemblyAI наскоро събра $30 милиона от серия B. Как това ще ускори мисията AssemblyAI?

Напредъкът, който се постига в областта на AI, е невероятно вълнуващ. Нашата цел е да изложим този напредък на всеки разработчик и продуктов екип в интернет – чрез прост набор от API. Докато продължаваме да проучваме и обучаваме най-съвременни AI модели за ASR и NLP задачи (като разпознаване на реч, обобщаване, езикова идентификация и много други задачи), ние ще продължим да излагаме тези AI модели на разработчици и продуктови екипи чрез прости APIs — достъпни безплатно.

AssemblyAI е място, където както разработчиците, така и продуктовите екипи могат да дойдат за лесен достъп до усъвършенстваните AI модели, от които се нуждаят, за да създадат вълнуващи нови продукти, услуги и цели компании.

През последните 6 месеца пуснахме ASR поддръжка за 15 нови езика— включително испански, немски, френски, италиански, хинди и японски, пуснаха големи подобрения на нашия модел за обобщаване, ASR модели в реално време, модели за модериране на съдържание и безброй други продуктови актуализации.

Едва сме се потопили в нашите фондове от серия А, но това ново финансиране ще ни даде възможност агресивно да увеличим усилията си – без да правим компромис с нашата писта.

С това ново финансиране ще можем да ускорим нашата продуктова пътна карта, да изградим по-добра AI инфраструктура, за да ускорим нашите AI изследвания и двигатели за изводи, и да разширим нашия изследователски екип за AI – който днес включва изследователи от DeepMind, Google Brain, Meta AI, BMW и Cisco.

Има ли нещо друго, което бихте искали да споделите за AssemblyAI?

Нашата мисия е да направим най-съвременните AI модели достъпни за разработчици и продуктови екипи в изключително голям мащаб чрез прост API.

Благодаря ви за страхотното интервю, читателите, които искат да научат повече, трябва да го посетят Сглобяване AI.

Свързани теми:Сглобяване AI Интервю

Следва

Йонатан Гайфман, главен изпълнителен директор и съосновател на Deci – Серия интервюта

Не пропускайте

Майк Капс, съосновател и главен изпълнителен директор на Diveplane – Серия интервюта

Антоан Тардиф

Основател на unite.AI и член на Технологичен съвет на Forbes, Антоан е а футурист който е страстен за бъдещето на AI и роботиката.

Той е и основател на Ценни книжа.io, уебсайт, който се фокусира върху инвестирането в революционни технологии.

Обединете.AI

Дилън Фокс, главен изпълнителен директор и основател на AssemblyAI – Серия интервюта

Интервюта

Дилън Фокс, главен изпълнителен директор и основател на AssemblyAI – Серия интервюта

Съдържание

Обединете.AI

Дилън Фокс, главен изпълнителен директор и основател на AssemblyAI – Серия интервюта

Съдържание

Може да ви хареса