никулец Мет Хокинг, ко-основач на WellSaid Labs - серија на интервјуа - Unite.AI
Поврзете се со нас

Интервјуа

Мет Хокинг, ко-основач на WellSaid Labs – серија на интервјуа

mm
Ажурирани on

Мет Хокинг е ко-основач на WellSaid Labs, водечки генератор на глас за вештачка интелигенција од претпријатието. Тој има повеќе од 15 години искуство во водењето на тимови и испораката на технолошки решенија на големо.

Вашето потекло е прилично претприемачко, како првично се вклучивте во вештачката интелигенција?

Претпоставувам дека отсекогаш сум се сметал за прилично претприемач. Го започнав мојот прв бизнис надвор од колеџ и со искуство во дизајн на производи, се најдов себеси како гравитирачки кон помагање на луѓето со идеи во рана фаза. Во текот на мојата кариера, имав доволно среќа да работам со голем број стартапи кои продолжија да имаат прилично неверојатни резултати. За време на тие искуства, од прва рака се запознав со многу големи основачи, за возврат ме инспирираа да ги следам моите сопствени идеи како основач. ВИ беше релативно нова за мене кога се приклучив на АИ2; сепак, тоа искуство ми даде можност да го применам мојот производ и леќата за стартување на некое навистина неверојатно истражување и да замислам како овие нови достигнувања ќе можат да им помогнат на многу луѓе во наредните години. Мојата цел од самиот почеток беше да развијам вистински бизниси за вистински луѓе и верувам дека вештачката интелигенција има потенцијал да создаде многу возбудливи можности и ефикасност во нашата иднина, доколку се применува внимателно.

Можете ли да ја споделите приказната за тоа како идејата за WellSaid Labs била зачната кога сте биле претприемач во резиденција во Институтот Ален за вештачка интелигенција?

Се приклучив на Институтот за вештачка интелигенција Ален (АИ2) како претприемач во резиденција во 2018 година. Веројатно најиновативниот инкубатор во светот, АИ2 ги сместува најпаметните умови во вештачката интелигенција кои применуваат решенија од работ на она што е можно денес за опипливи производи што решаваат проблеми ширум светот. Моето потекло во дизајнот и технологијата негуваше долгогодишен интерес за креативните полиња, а со бумот на вештачката интелигенција на кој сите сме сведоци денес, сакав да истражам начин да ги поврзам двете. Бев запознаен со Мајкл Петрочук (ко-основач на WellSaid Labs и CTO) додека развивав интерактивна апликација за здравствена заштита која го водеше пациентот низ различни чувствителни сценарија. За време на процесот на развивање на содржината за искуството, мојот тим работеше со гласовниот талент за претходно да сними илјадници линии на глас за аватарот. Кога бев изложен на некои од откритијата што Мајкл ги постигна за време на неговото истражување, и двајцата брзо ја увидовме вредноста на тоа како текст-во-говор со човечки паритет (TTS) може да го трансформира не само производот на кој работев, туку и да влијае на одреден број. на други апликации и индустрии. Технологијата и алатките се бореле да бидат во чекор со потребите на продуцентите кои создаваат со глас како медиум. Видовме пат до ставање на оваа технологија во рацете на сите креатори, дозволувајќи му на гласот да биде составен дел од сите приказни.

WellSaid Labs е една од ретките компании што им обезбедува на гласовните актери пристап во просторот за гласовни ВИ. Зошто верувавте дека е важно да се интегрираат вистински гласови во производот?

Нашиот одговор на ова е двостран: прво, сакавме да создадеме решенија кои ги комплиментираат способностите на професионалните гласовни актери, проширувајќи ги можностите за глас. И второ, се стремиме да имаме највисоко ниво на човечки квалитет во нашите производи. Нашите гласовни актери се долгорочни партнери за соработка и добиваат компензација и удел во приходите и за нивните гласовни податоци и за последователната содржина произведена со нив. Секој гласовен актер што го ангажираме да создаде гласовен аватар со вештачка интелигенција врз основа на сличноста на неговиот глас се плаќа врз основа на тоа колку неговиот глас се користи на нашата платформа. Ги охрабруваме талентите да соработуваат со нас; фер компензација за нивните придонеси е неверојатно важна за нас.

За да понудиме највисоко ниво на производи со човечки квалитет на пазарот, мора да бидеме ригорозни околу тоа каде ги добиваме нашите податоци. Овој процес ни дава поголема контрола врз квалитетот, додека ги тренираме нашите длабоко учење модели да зборуваат и за човековиот паритет и за специфичните контекстуално релевантни стилови. Ние не создаваме само глас кој го рецитира дадениот влез. Нашите модели нудат различни стилови на глас што го изведуваат она што е на страницата. Без разлика дали корисниците создаваат гласовно известување со користење на аватар од нашата библиотека или создаваат гласовно писмо со прилагоден глас за нивниот бренд, ние користиме вистински гласовни податоци за да обезбедиме беспрекорен процес и лесна за користење платформа. Доколку нашите клиенти треба да манипулираат и да ги уредуваат нашите гласови во постпродукцијата, процесот на добивање на посакуваниот резултат би бил незгоден и долг. Нашите гласови го земаат контекстот на напишаната содржина и обезбедуваат контекстуално точно читање. Ние нудиме гласови за сите видови случаи на употреба – без разлика дали се работи за читање вести, правење аудио реклама или автоматизирана поддршка на центарот за повици – така што партнерството со професионални гласовни таленти специфични за секој случај на употреба ни обезбедува и контекст и висококвалитетни гласовни податоци .

Редовно ажурираме и додаваме нови стилови и акценти во нашата библиотека со аватари за да се осигураме дека ги претставуваме гласовите на нашите клиенти. Во студиото на WellSaid Labs, клиентите и брендовите можат да слушаат различни гласови засновани на регион, стил и случај на употреба, овозможувајќи полесна, унифицирана продукција на аудио содржина персонализирана според потребите на производителот. Откако ќе се земе примерок од првичната снимка, корисниците можат да наведат одредени зборови, правописи и изговори за да се осигураат дека вештачката интелигенција постојано зборува конкретно за нивните потреби.

WellSaid Labs го заложува своето тврдење како прва етичка гласовна платформа за вештачка интелигенција. Зошто ви е важна етиката на вештачката интелигенција?

Како што усвојувањето на вештачката интелигенција се зголемува и станува се повеќе мејнстрим, стравовите од случаи на штетна употреба и лоши актери се во центарот на секој разговор - и овие грижи, за жал, се потврдуваат со појави во реалниот свет. ВИ глас не е исклучок; Речиси секој ден, нов извештај за славна личност, јавна личност или политичар кој е фалсификуван за реклами или политички цели, станува наслов на вестите. Иако формалната федерална регулатива во врска со оваа технологија сè уште се развива, откривањето и борбата против злонамерните актери и употребата на синтетички глас ќе станува сè потешко како што технологијата продолжува да напредува.

Доаѓајќи од AI2, каде што етиката на вештачката интелигенција е основен принцип, Мајкл и јас ги имавме овие разговори на првиот ден. Развивањето на технологија за говор со вештачка интелигенција доаѓа со значителни одговорности во однос на согласноста, приватноста и целокупната безбедност. Знаеме дека ние, како програмери, мораме безбедно да ја изградиме нашата технологија, да одговориме на етичките проблеми и да ја поставиме основата за идниот развој на синтетички гласови. Го препознаваме потенцијалот на говорната технологија за вештачка интелигенција за злоупотреба и ја прифаќаме нашата одговорност да ја намалиме потенцијалната злоупотреба на нашиот производ. Треба да ја поставиме оваа основа уште од првиот ден, наместо да трчаме брзо и да правиме грешки на патот. Тоа не би го направиле правилно нашите клиенти на претпријатието и гласовните актери, кои сметаат на нас да изградиме висококвалитетен, доверлив производ.

Целосно го поддржуваме повикот за законодавство во оваа област; сепак, нема да чекаме да се донесат федералните прописи. Секогаш сме имале приоритет и ќе продолжиме да им даваме приоритет на практиките што ја поддржуваат приватноста, безбедноста, транспарентноста и одговорноста.

Ние строго се придржуваме до етичкиот кодекс на намери на нашата компанија, кој се заснова на градење со одговорна иновација во секоја одлука што ја носиме. Ова е во најдобар интерес на нашите глобални клиенти - брендови на претпријатија.

Како да развиете етичка гласовна платформа за вештачка интелигенција?

WellSaid Labs е посветена на етичките иновации од самиот почеток. Ние ја централизираме довербата и транспарентноста преку употреба на внатрешни модели на податоци, експлицитни барања за согласност, нашата програма за модерирање на содржината и нашата посветеност на заштита на брендот. Во WellSaid, ние се потпираме на принципите на Одговорна вештачка интелигенција да ги обликуваме нашите одлуки и дизајни, а тие принципи се прошируваат на употребата на нашите гласови. Нашиот етички кодекс ги претставува овие принципи како одговорност, транспарентност, приватност и безбедност и правичност.

Одговорност: Одржуваме строги стандарди за соодветна содржина, забранувајќи ја употребата на нашите гласови за содржина која е штетна, омраза, измама или има намера да поттикне насилство. Нашиот тим Trust & Safety ги поддржува овие стандарди со ригорозна програма за модерирање на содржината, блокирајќи и отстранувајќи ги корисниците кои се обидуваат да ги прекршат нашите Услови за користење.

Транспарентност: Бараме експлицитна согласност пред да изградиме синтетички глас со нечии гласовни податоци. Корисниците не можат да поставуваат гласовни податоци од политичари, познати личности или кој било друг за да создадат клон на нивниот глас, освен ако имаме експлицитна, писмена согласност од тоа лице.

Приватност и безбедност: Ги заштитуваме идентитетите на нашите гласовни актери со користење на залихи слики и псевдоними за претставување на синтетичките гласови. Исто така, ги охрабруваме да внимаваат како и со кого ја споделуваат својата поврзаност со WellSaid Labs или други синтетички говорни компании за да ја намалат можноста за злоупотреба на нивниот глас.

Правичност: Ги компензираме сите гласовни актери кои обезбедуваат гласовни податоци за нашата платформа и им обезбедуваме тековен удел на приходите за користење на синтетичкиот глас што го создаваме со нивните податоци.

Заедно со овие принципи, ние строго ја почитуваме и интелектуалната сопственост. Ние не бараме сопственост над содржината обезбедена од нашите корисници или гласовни актери. Имаме приоритет на интегритетот, правичноста и транспарентноста во сè што правиме, осигурувајќи дека нашата технологија за синтетички говор се користи одговорно и етички. Активно бараме партнерства со гласови од различни потекла и искуства за да се осигураме дека ќе обезбедиме глас за секого.

Нашата посветеност на одговорна иновација и развој на говорната технологија за вештачка интелигенција со етиката на ум нè издвојува од другите во просторот кои се обидуваат да профитираат од нова, нерегулирана индустрија преку какви било средства. Нашите рани инвестиции во етиката, безбедноста и приватноста воспоставуваат доверба и лојалност кај нашите гласовни актери и клиенти, кои сè повеќе бараат етички направени производи и услуги од компаниите кои се во првите редови на иновациите.

WellSaid Labs создаде свој внатрешен модел на вештачка интелигенција што им овозможи на гласовите со вештачка интелигенција да постигнат човечки паритет, а тоа го постигна со внесување на несовршеностите што ги имаат луѓето во разговорите. Што е тоа во овие несовршености што ја прават вештачката интелигенција подобра, и како се имплементираат овие несовршености?

WellSaid Labs не е само уште еден TTS генератор. Онаму каде што раната TTS технологија не можеше да ги препознае човечките говорни квалитети како што се тонот, тонот и дијалектот што го пренесуваат контекстот и емоциите зад зборовите, гласовите WellSaid постигнаа човечки паритет, носејќи уникатни човечки несовршености во говорот генериран со вештачка интелигенција.

Нашата основна мерка за квалитетот на гласот е и отсекогаш била човечката природност. Ова водечки верување ја обликуваше нашата технологија во секоја фаза, од библиотеките со скрипти што ги изградивме до инструкциите што ги даваме талентите и, од неодамна, како повторуваме на нашите основни TTS алгоритми.

Тренираме на автентични човечки вокализации. Нашиот гласовен талент ги чита нивните сценарија автентично и привлечно кога снимаат за нас. Говорното совршенство, од друга страна, е механички концепт што води до роботски беспрекорен, неприроден резултат. Кога професионалните гласовни таленти настапуваат, нивната стапка на говор варира. Нивната гласност се движи во врска со содржината што ја читаат. Нивниот глас може да се зголеми во пасус што бара возбудено читање и повторно да падне во помрачен ред. Овие динамични варијации сочинуваат привлечна човечка вокална изведба.

Со градење на процеси на вештачка интелигенција кои работат во координација со динамичните перформанси на нашиот професионален талент, изградивме навистина природна TTS платформа. Го развивме првиот TTS систем со долга форма со предвидливи контроли во текот на целиот креативен процес. Нашата фонетска библиотека содржи разновидна колекција на аудио податоци, овозможувајќи им на корисниците да вклучат специфични вокални знаци, како што се водење на изговорот или контрола, во моделот за време на фазата на производство. Во една платформа, корисниците на WellSaid можат да снимаат, уредуваат и стилизираат нивниот глас без потреба од увоз на надворешни податоци.

Дали би можеле да разговарате за некои од предизвиците зад градењето на компанија за вештачка интелигенција за текст-во-говор (TTS)?

Развојот на говорната технологија за вештачка интелигенција создаде сосема нов сет на пречки и за нејзините производители и за потрошувачите. Еден од главните предизвици е да не се фатите во бучавата и возбудата што го преплавуваат секторот за вештачка интелигенција. Како нова, бујна технологија, многу организации се обидуваат да заработат од краткорочните случувања за договарање на вештачката интелигенција. Сакаме да обезбедиме глас за сите, водени од централните етички принципи и автентичност. Ова придржување до автентичноста може да го одложи развојот и распоредувањето на нашите технологии, но ја зацврстува безбедноста и безбедноста на гласовите на WellSaid и нивните податоци.

Друг предизвик за развивање на нашата TTS платформа беше развивањето на специфични упатства за согласност за да се осигура дека организациите или поединечните актери нема да ја злоупотребат нашата технологија. За да се избориме со овој предизвик, бараме колаборативни, долгорочни партнерства и целосно сме вклучени во развојот на гласовни информации за да ја зголемиме одговорноста, транспарентноста и безбедноста на корисниците. Активно бараме партнерства со гласовни таленти од различни потекла, организации и искуства за да се осигураме дека библиотеката на гласови на WellSaid Labs ги одразува нејзините креатори и публика. Овие процеси се дизајнирани да бидат намерни и ориентирани кон деталите за да се обезбеди дека нашата технологија се користи што е можно побезбедно и етички, што може да го забави развојот и временската рамка за лансирање.

Која е вашата визија за иднината на генеративните гласови со вештачка интелигенција?

Најдолго време, технологијата за говор на вештачката интелигенција не достигна доволно висок квалитет за да им овозможи на компаниите да создаваат значајна содржина на размер. Сега кога аудио технологијата повеќе не бара скапа опрема и хардвер, целата пишана содржина може да се произведува и објавува во аудио формат за да се создадат привлечни, мултимодални искуства.

Денес, гласовите на вештачката интелигенција можат да произведат звук сличен на човекот и да ја доловат потребната нијанса за да се направи дигиталното раскажување приказни попристапно и природно. Иднината на генеративниот глас со вештачка интелигенција ќе биде сеопфатни звучни искуства кои го допираат секој аспект од нашите животи. Како што технологијата продолжува да напредува, ќе видиме се поприродни и експресивни синтетички гласови како ја замаглуваат границата помеѓу човечкиот и говорот генериран од машината – отворајќи нови врати за бизнисот, комуникациите, пристапноста и начинот на кој комуницираме со светот околу нас.

Бизнисите ќе најдат подобрена персонализација во гласовните интерфејси со вештачка интелигенција и ќе ги користат за да ги направат интеракциите со виртуелните асистенти попотопливи и попријатни за корисниците. Овие подобрувања веќе се случуваат, од интелигентни агенти за повикувачки центри до брза храна. Создавањето содржина, вклучително рекламирање, маркетинг на производи, нарација на вести, подкасти, аудио книги и други мултимедија, ќе доживее зголемена ефикасност со користење на алатки за развој на привлечна содржина - на крајот зголемување на покачувањето и приходите за организациите, особено сега кога повеќејазичните модели можат да го прошират досегот на компанијата од една точка на потекло до глобално присуство. Продукциските тимови ќе најдат голема корист од синтетичките гласови за да создадат гласови прилагодени на потребите на брендот или приспособени на слушателот.

Пред воведувањето на вештачката интелигенција, технологијата TTS немаше клучни човечки емоции, интонација и способности за изговор потребни за да се раскаже целосната приказна во обем и лесно. Сега, TTS напојуван со вештачка интелигенција нуди повеќе извонредни и достапни искуства, вклучително и способности за говор во реално време и интерактивни агенти за разговор.

Постигнувањето на говорни способности слични на човекот беше патување, но сега кога е достижно, сведоци сме на целосниот опсег на гласот на вештачката интелигенција за создавање вистинска деловна вредност за организациите.

Ви благодариме за одличното интервју, читателите кои сакаат да дознаат повеќе треба да го посетат Лаборатории на WellSaid.

Основачки партнер на unite.AI и член на Технолошкиот совет на Форбс, Антоан е а футуристички кој е страстен за иднината на вештачката интелигенција и роботиката.

Тој е и основач на Хартии од вредност.io, веб-страница која се фокусира на инвестирање во непушачка технологија.