Haastattelut
Matt Hocking, WellSaid Labsin perustaja – Haastattelusarja

Matt Hocking on WellSaid Labsin perustaja, joka on johtava yritysasteen ääni generointi AI. Hänellä on yli 15 vuoden kokemus johtaa tiimejä ja toimittaa teknologiaratkaisuja laajassa mittakaavassa.
Hänen taustansa on melkoisen yrittäjämäinen, miten hän alun perin tuli mukaan AI:hen?
Arvelen, että olen aina kutsunut itseäni melkoisen yrittäjäksi. Aloin ensimmäisen yritykseni yliopistosta ja tuotesuunnittelun taustalla olen löytänyt itseni auttavan ihmisiä varhaisessa vaiheessa olevilla ideoilla. Urani aikana olen onnekkaasti päässyt työskentelemään useiden startupien kanssa, jotka ovat menneet eteenpäin ja saavuttaneet jotain todella uskomattomia asioita. Näiden kokemusten kautta olen saanut vaikutteita monilta hyviltä perustajilta, mikä on inspiroinut minua seuraamaan omia ideoitani perustajana. AI oli minulle melko uusi, kun liityin AI2:een, mutta se kokemus antoi minulle mahdollisuuden soveltaa tuotesuunnittelun ja startup-näkökulmaani todella upeaan tutkimukseen ja kuvitella, miten nämä uudet edistysaskeleet pystyisivät auttamaan monia ihmisiä tulevina vuosina. Tavoitteeni on ollut kehittää oikeita liiketoimintamahdollisuuksia oikeille ihmisille, ja uskon, että AI:lla on potentiaalia luoda paljon mielenkiintoisia mahdollisuuksia ja tehokkuutta tulevaisuudessa, jos sitä sovelletaan tarkoituksenmukaisesti.
Voisiko hän kertoa tarinan siitä, miten WellSaid Labsin idea syntyi, kun hän oli yrittäjä The Allen Institute for AI:ssa?
Liityin The Allen Institute for Artificial Intelligence (AI2):een yrittäjäksi vuonna 2018. Kyseessä on mahdollisesti maailman innovatiivisin inkubator, jossa on koolla älykkäimmät älykkyyden asiantuntijat, jotka soveltavat ratkaisuja siitä, mitä on mahdollista tänään, konkreettisiin tuotteisiin, jotka ratkaisevat ongelmia ympäri maailmaa. Taustani suunnittelussa ja teknologiassa on ajanut minua pitkään luovien alojen pariin, ja AI-boomin myötä halusin tutkia tapaa yhdistää nämä kaksi asiaa. Tutustuin Michael Petrochukiin (WellSaid Labsin perustaja ja CTO) kehittäessäni interaktiivista terveydenhuollon sovellusta, joka ohjasi potilasta eri herkkien tilanteiden läpi. Sisällön kehittämisprosessin aikana tiimini työskenteli ääninäyttelijöiden kanssa, jotka esittivät tuhansia ääniraitoja hahmolle. Kun minut esiteltiin Michaelin saavutuksille tutkimuksessa, näimme nopeasti, miten inhimillisen tason teksti-puhetta (TTS) voisi muuttaa sekä tuotetta, jolla työskentelin, että vaikuttaa moniin muihin sovelluksiin ja aloihin. Teknologia ja työkalut olivat kamppailleet pysymään tuottajien tarpeiden mukana, jotka loivat äänellä. Näimme tien avaamisen kaikille luojille, jotka antaisivat äänen olla osa kaikkia tarinoita.
WellSaid Labs on yksi harvoista yhtiöistä, joka tarjoaa ääninäyttelijöille väylän AI-ääniin. Miksi hän uskoi, että oli tärkeää integroida aitoja ääniä tuotteeseen?
Vastauksemme on kaksiosainen: ensinnäkin halusimme luoda ratkaisuja, jotka täydentävät ammattimaisen ääninäyttelijän kykyjä, laajentaen äänen mahdollisuuksia. Toiseksi pyrimme saavuttamaan korkeimman inhimillisen laadun tuotteissamme. Ääninäyttelijämme ovat pitkäaikaisia yhteistyökumppaneita, ja he saavat korvausta ja osuuden tuotosta sekä heidän äänidataltaan että myöhemmästä sisällöstä, joka tuotetaan sen avulla. Jokainen ääninäyttelijä, jonka palkkaamme luomaan AI-äänihahmon heidän äänensä kaltaiseksi, maksetaan sen mukaan, miten paljon heidän ääntään käytetään alustallamme. Rohkaisemme kykyjä yhteistyöhön; reilu korvaus heidän panoksestaan on meille erittäin tärkeää.
Tarjoaksemme korkeimman inhimillisen laadun tuotteita markkinoilla, meidän on oltava tiukkoja siitä, mistä hankimme datamme. Tämä prosessi antaa meille enemmän valvontaa laadusta, koska koulutamme syväoppimismalleja puhumaan sekä inhimillisen tason että kontekstisidonnaisiin tyyliin. Emme ainoastaan luo ääntä, joka lausuu annetun syötteen. Malleimme tarjoavat ääniyleisöjä, jotka suorittavat sen, mitä sivulla on. Käyttäjät luovat ääniraitoja käyttämällä avataremme kirjastosta tai luomalla ääniraidan brändin tarpeisiin, käytämme aitoja äänidataa varmistamaan sujuvan prosessin ja helppokäyttöisen alustan. Jos asiakkaidemme olisi pakko manipuloida ja editoida ääniämme jälkikäteen, prosessi saada haluttu tuloste olisi kömpelö ja pitkä. Äänimme ottaa kirjoitetun sisällön kontekstin ja tarjoaa kontekstisidonnaisen lukemisen. Tarjoamme ääniä kaikenlaisiin käyttötarkoituksiin – olipa kyse uutisten lukemisesta, äänimainonnasta tai automaattisesta asiakaspalvelusta – joten ääninäyttelijöiden yhteistyö eri käyttötarkoituksiin antaa meille sekä kontekstin että korkealaatuisen äänidatan.
Päivitämme säännöllisesti ja lisäämme uusia tyylejä ja aksenteja avataremme kirjastoon varmistamaan, että edustamme asiakkaidemme ääniä. WellSaid Labsin Studiolla asiakkaat ja brändit voivat kuulla eri ääniä alueen, tyylisi ja käyttötarkoituksen mukaan, mikä mahdollistaa äänisisällön tuottamisen yhdenmukaisesti luojan tarpeisiin. Kun alkuperäinen äänite on otettu näyte, käyttäjät voivat kutsua tiettyjä sanoja, oikeinkirjoitusta ja ääntämistä varmistaakseen, että AI puhuu jatkuvasti heidän tarpeidensa mukaan.
WellSaid Labs on asettamassa merkintänsä ensimmäisenä eettisenä AI-ääni alustana. Miksi AI-eettisyys on tärkeää hänelle?
Koska AI-hyväksyntä kasvaa ja tulee yleisemmäksi, pelot haitallisista käyttötavoista ja pahantahtoisista toimijoista ovat jokaisen keskustelun keskipisteenä – ja nämä huolenaiheet vahvistetaan tosiasioilla. AI-ääni ei ole poikkeus; melkein jokaisena päivänä uusi raportti julkisuuden henkilöstä, julkisesta hahmosta tai poliitikosta, jota on käytetty mainonnassa tai poliittisissa tarkoituksissa, tekee otsikkoja. Vaikka virallinen liittovaltion sääntely tähän teknologiaan on edelleen kehittymässä, synteettisen äänen havaitseminen ja torjuminen tulee olemaan yhä haasteellisempaa, kun teknologia jatkaa kehittymistään.
Tultuani AI2:sta, jossa AI-eettisyys on keskeinen periaate, Michael ja minä keskustelimme tästä asiasta ensimmäisenä päivänä. Älypuheluteknologian kehittäminen tuo mukanaan merkittäviä vastuuta suostumusta, yksityisyyttä ja yleistä turvallisuutta koskien. Tiedämme, että meidän on kehitettävä teknologiamme turvallisesti, käsiteltävä eettisiä huolenaiheita ja luotava perusta tulevaisuuden synteettisten äänien kehittämiseksi. Tunnistamme AI-puhetechnologian mahdollisuuden väärinkäytölle ja omaksumme vastuun vähentää tuottemme mahdollista väärinkäyttöä. Meidän on asetettava tämä perusta jo alusta alkaen eikä voida tehdä virheitä matkan varrella. Tämä ei olisi oikein tehty asiakkaidemme ja ääninäyttelijöidemme parissa, jotka luottavat meihin luomaan laadukkaan, luotettavan tuotteen.
Tukeemme täysin vaatimusta lainsäädännölle tässä alalla; kuitenkaan emme odota liittovaltion sääntelyä. Olemme aina asettaneet eettiset käytännöt etusijalle ja jatkamme niiden priorisointia. Noudatamme tiukasti yrityksemme eettistä tarkoituksen mukaista koodia, joka perustuu vastuulliseen innovaatioon jokaisessa päätöksessämme. Tämä on parhaan edun mukainen globaaleille asiakkaillemme – yritysbrändeille.
Miten kehittää eettistä AI-ääni alustaa?
WellSaid Labs on sitoutunut eettiseen innovaatioon alusta alkaen. Keskitymme luottamukseen ja avoimuuteen käyttämällä sisäisiä data-malleja, eksplisiittisiä suostumusvaatimuksia, sisällön valvontaprogrammaa ja sitoutumista brändien suojelemiseen. WellSaidissa nojautumme vastuullisen AI:n periaatteisiin muotoilemaan päätöksiämme ja suunnitelmia, ja nämä periaatteet ulottuvat äänien käyttöön. Eettinen koodimme edustaa näitä periaatteita: Vastuullisuus, Avoinheitto, Yksityisyys ja Turvallisuus, sekä Reiluus.
Vastuullisuus: Ylläpidämme tiukkoja standardeja sopivasta sisällöstä, kieltäen äänien käytön haitallisesta, vihamielisestä, petoksellisesta tai väkivallan lietsovasta sisällöstä. Luottamus- ja turvallisuustiimimme ylläpitää näitä standardeja tiukalla sisällön valvontaprogrammalla, estäen ja poistamalla käyttäjiä, jotka yrittävät rikkoa käyttöehtoja.
Avoinheitto: Vaadimme eksplisiittistä suostumusta ennen kuin luomme synteettisen äänen jonkun äänidatalla. Käyttäjät eivät voi ladata äänidataa poliitikoilta, julkisuuden henkilöiltä tai kenenkään muun äänen kloonia ilman kyseisen henkilön eksplisiittistä, kirjallista suostumusta.
Yksityisyys ja Turvallisuus: Suojelimme ääninäyttelijöidemme identiteettejä käyttämällä varastokuvia ja salanimiä edustamaan synteettisiä ääniä. Kannustamme heitä olemaan varovaisia siitä, miten ja kenelle he jakavat yhteytensä WellSaid Labsiin tai muihin synteettisiin ääniyhtiöihin vähentääkseen heidän äänensä väärinkäytön mahdollisuuden.
Reiluus: Korvaamme kaikki ääninäyttelijät, jotka toimittavat äänidataa alustallemme, ja tarjoamme heille jatkuvan osuuden äänien käytöstä. Kunnioitamme tiukasti immateriaalioikeuksia. Emme vaadi omistusoikeutta käyttäjien tai ääninäyttelijöiden toimittamaan sisällön. Priorisoimme eheytensä, reiluuden ja avoimuuden kaikessa, mitä teemme, varmistaen, että synteettinen puhetechnologiaa käytetään vastuullisesti ja eettisesti. Aktiivisesti etsimme yhteistyötä äänillä erilaisista taustoista, organisaatioista ja kokemuksista varmistaaksemme, että WellSaid Labsin äänikirjasto heijastaa luojiaan ja yleisöään.
Sitoutumisemme vastuulliseen innovaatioon ja kehittämään AI-ääniteknologiaa eettisyyden mielessä erottaa meidät muista alan toimijoista, jotka pyrkivät hyödyntämään uutta, sääntelemätöntä alaa millä tahansa tavalla. Varhaiset investoinnit eettisyyteen, turvallisuuteen ja yksityisyyteen luo luottamusta ja uskollisuutta ääninäyttelijöidemme ja asiakkaidemme keskuudessa, jotka etsivät yhä enemmän eettisesti valmistettuja tuotteita ja palveluita yrityksiltä, jotka ovat innovaation eturintamassa.
WellSaid Labs on luonut oman sisäisen AI-mallinsa, joka mahdollistaa AI-äänien saavuttamisen inhimillisen tason. Mitä näissä epätäydellisyyksissä on, mikä tekee AI:n paremmaksi, ja miten nämä epätäydellisyydet toteutetaan?
WellSaid Labs ei ole vain toinen TTS-generaattori. Siinä, missä varhaiset TTS-teknologiat eivät pystyneet tunnistamaan inhimillisiä puheenlaatuja, kuten äänenkorkeutta, sävyä ja murretta, jotka välittävät kontekstin ja tunteen sanojen takana, WellSaid-äänet ovat saavuttaneet inhimillisen tason, tuomalla ainutlaatuiset inhimilliset epätäydellisyydet AI-kieleen.
Pääasiallinen äänenlaadun mittari on aina ollut inhimillinen luonnollisuus. Tämä ohjaa uskomusta on muovannut teknologiaamme jokaisessa vaiheessa, kirjastojen rakentamisesta, joihin olemme panneet, ohjeisiin, jotka annamme kykyille, ja viimeaikaisesti siihen, miten iteroidaan ydin-TTS-algoritmeja.
Koulutamme aidosti inhimillisiä ääni-ilmaisuja. Äänkykyämme lukee ääniinsä aidosti ja viihdyttävästi, kun he tallentavat meille. Puhdas ääni on mekaninen käsite, joka johtaa robotiin kaltaiseen, epäluonnolliseen tulokseen. Kun ammattimaiset ääninäyttelijät esittävät, heidän puhetapansa vaihtelee. Heidän äänensä voimakkuus liikkuu sisällön mukana. Heidän äänensä sävy saattaa nousta kohtauksessa, joka vaatii innostunutta lukemista, ja laskea jälleen vakavammassa kohdassa. Nämä dynaamiset vaihtelut muodostavat viihdyttävän inhimillisen äänesityksen.
Rakentamalla AI-prosesseja, jotka toimivat yhteistyössä ammattimaisen kykyjen dynaamisten esitysten kanssa, olemme luoneet todella luonnollisen TTS-alustan. Kehittimme ensimmäisen pitkän TTS-järjestelmän, jossa on ennustavat ohjaimet koko luovassa prosessissa. Fonetiikkakirjastomme sisältää monipuolisen äänidata-kokoelman, joka mahdollistaa käyttäjien sisällyttää tiettyjä ääni-ohjeita, kuten ääntämisen ohjausta tai ohjattavuutta, malliin tuotantovaiheessa. Yhdessä alustassa WellSaid-käyttäjät voivat tallentaa, editoida ja tyylittää ääniraitojaan ilman ulkoisen datan tuontia.
Voisiko hän keskustella joistakin haasteista, jotka liittyvät teksti-puhetta (TTS) AI-yrityksen rakentamiseen?
AI-ääniteknologian kehittäminen on luonut kokonaan uuden joukon esteitä sekä tuottajille että kuluttajille. Yksi pääasiallinen haaste on, ettei jää kiinni meteliin ja hypeen, joka tulvii AI-sektoria. Koska se on uusi, kuuluisa teknologia, monet organisaatiot yrittävät hyötyä lyhytaikaisista AI-äänikehityksistä. Haluamme tarjota äänen kaikille, johdaten keskeisiä eettisiä periaatteita ja aitoa luovuutta. Tämä sitoutuminen aitoon luovuuteen voi hidastaa teknologiamme kehittämistä ja käyttöönottoa, mutta vahvistaa WellSaid-äänten ja niiden datan turvallisuutta.
Toinen haaste, joka liittyi TTS-alustamme kehittämiseen, oli kehittää tiettyjä suostumusohjeita varmistaaksemme, ettei organisaatiot tai yksittäiset toimijat väärinkäyttäisi teknologiaamme. Tämän haasteen voittamiseksi etsimme yhteistyökumppaneita ja olemme täysin mukana äänituotannossa lisätäksemme vastuullisuutta, avoimuutta ja käyttäjien turvallisuutta. Aktiivisesti etsimme yhteistyötä äänillä erilaisista taustoista, organisaatioista ja kokemuksista varmistaaksemme, että WellSaid Labsin äänikirjasto heijastaa luojiaan ja yleisöään. Nämä prosessit on suunniteltu tarkoituksenmukaisiksi ja yksityiskohtaisiksi varmistaaksemme, että teknologiamme käytetään turvallisesti ja eettisesti, mikä voi hidastaa kehittämisen ja lanseerauksen aikataulua.
Mikä on hänen visio hänen tulevaisuuden generatiivisista AI-äänistä?
Pitkään AI-puhetechnologia ei ole saavuttanut tarpeeksi korkeaa laatua, jotta yritykset voivat luoda merkityksellistä sisältöä laajassa mittakaavassa. Nyt, kun ääniteknologiaa ei enää vaadita kalliita laitteita, kaikki kirjoitettu sisältö voidaan tuottaa ja julkaista ääniformaatissa luomaan mielenkiintoisia, moniaistisia kokemuksia.
Tänään AI-äänet voivat tuottaa inhimillistä ääntä ja ottaa kiinni hienoisuudet, jotka tekevät digitaalisen kerronnan helpommaksi ja luonnollisemmaksi. Generatiivisen AI-äänin tulevaisuus tulee olemaan kaiken kattava äänikokemus, joka koskettaa jokaista elämän osa-aluetta. Kun teknologia jatkaa kehittymistään, näemme yhä enemmän luonnollisia ja ilmaisuvoimaisia synteettisiä ääniä, jotka sekoittavat rajan inhimillisen ja koneen luoman puheen välillä – avaen uusia ovia liiketoiminnalle, viestinnälle, saavutettavuudelle ja sille, miten vuorovaikutamme maailman kanssa.
Yritykset löytävät parannettua personointia AI-ääni-liittymissä ja käyttävät niitä tehdäkseen virtuaaliavustajien kanssa vuorovaikutuksen immersiivisemmäksi ja käyttäjäystävällisemmäksi. Nämä parannukset tapahtuvat jo, älykkäistä asiakaspalvelukeskuksista nopean ruuan ajoramppeihin. Sisällön luominen, mukaan lukien mainonta, tuotemarkkinointi, uutisten kerronta, podcastit, äänikirjat ja muu monimedia, näkee tehostuneen tehokkuuden käyttämällä työkaluja luomaan mielenkiintoista sisältöä – lopulta lisäämällä nostoa ja tuottoa organisaatioille, erityisesti nyt, kun monikieliset mallit voivat laajentaa yhtiön ulottuvuuden yhdestä kohdasta globaaliksi läsnäoloksi. Tuotantotiimit löytävät suurta hyötyä synteettisistä äänistä luomaan ääniä, jotka on räätälöity brändin tarpeisiin tai mukautettu kuulijalle.
Ennen AI:n tulleen markkinoille, TTS-teknologia puuttui tärkeästä inhimillisestä tunteesta, intonaatiosta ja ääntämisestä, jotka vaaditaan kertomaan täydellistä tarinaa laajassa mittakaavassa ja helposti. Nyt AI-tehosteinen TTS tarjoaa immersiivisempiä ja saavutettavampia kokemuksia, mukaan lukien reaaliaikaisen puheen kyvyt ja interaktiiviset keskusteluagentit.
Saavuttaminen inhimillisen kaltaisia puhetaitoja on ollut matka, mutta nyt, kun se on saavutettavissa, todistamme koko AI-äänin mahdollisuuden luoda todellista liiketoimintaa organisaatioille.
Kiitos haastattelusta, lukijat, jotka haluavat oppia lisää, kannattaa vierailla WellSaid Labsissa.












