stomp Jaime Bosch, CEO, Voicemod - Interviewreeks - Unite.AI
Verbind je met ons

Interviews

Jaime Bosch, CEO, Voicemod - Interviewreeks

mm

gepubliceerd

 on

Jaime Bosch is de CEO van voicemod een gratis stemveranderende software voor gamers, makers van inhoud en vtubers.

Kun je het ontstaansverhaal achter Voicemod delen?

Als 8e van 10 kinderen groeide ik op in een omgeving waar ik mijn ondernemersgeest vanaf zeer jonge leeftijd volledig kon ontplooien, aangezien er altijd steun was van gelijkgestemde broers en zussen.

Als zodanig was het slechts een kwestie van tijd dat twee van mijn broers en ik, die allemaal een diepe liefde voor technologie en muziek deelden, speelden met het idee om een ​​app te maken die onze interesses vermengde. Dus in 2009 deden we precies dat en creëerden we een B2C-muziekapp als een bijzaak voor de studiobusiness die we runden als onze hoofdbezigheid.

Omdat het een nevenproject was, hebben we veel geëxperimenteerd met zaken als stemmodulatie, wat ons inspireerde om iets compleet nieuws en nieuws te creëren. Het resultaat hiervan was wat we de "Voicemod Experience" noemden - een compleet nieuwe manier om je eigen stem te ervaren - die de drijvende kracht werd achter de evolutie van de app. Wie onze software ook probeerde, we kwamen steeds dezelfde soort reacties tegen van de mensen die de app hadden ervaren: gelach en verbazing omdat je jezelf op een heel andere manier hoorde.

Dit bracht ons ertoe onze visie voor het product om te vormen tot iets dat uiteindelijk een menselijke verbinding zou kunnen ontwikkelen door middel van geluid. Dus brachten we de ervaring van mobiel naar pc, waar het meteen werd opgepikt door de exploderende gaming- en streamingscene - en de rest is, zoals men zegt, 'geschiedenis'.

Voicemod was in eerste instantie een nevenproject — wanneer realiseerde je je dat je all-in wilde gaan?

Aanvankelijk hadden mijn broers en ik samen een studio genaamd 2taptap. Toen we op het idee kwamen om Voicemod te maken, was het in eerste instantie gewoon een leuk nevenproject, maar naarmate de tijd verstreek, zagen we hoe mensen ermee omgingen en wat voor potentieel de technologie had. Tot dat moment was de meeste stemveranderende technologie asynchroon, dus om te kunnen ervaren iemand anders te zijn in een real-time setting was voor veel mensen nieuw. Het beslissende moment voor ons was echter het besef dat mensen onze technologie niet alleen gebruikten om plezier te hebben, maar om hun hele manier van online uiten vorm te geven. Toen realiseerden we ons dat we iets aan het bouwen waren dat niet alleen over entertainment ging, maar mogelijk de volgende stap in de toekomst van sociale audio-ervaringen.

Kunt u enkele spraakherkenningstechnologieën bespreken?

Met de reeks stemmenwisselaars in onze catalogus zijn er processen die worden ondergaan om een ​​gewone menselijke stem te veranderen in iets nieuws. Natuurlijk zijn er ook aspecten in iemands stem waarmee rekening moet worden gehouden, zoals leeftijd, geslacht, emotie en gewoon simpele variaties in hoe iemand spreekt.

Deze variaties dragen bij aan hoe iemand klinkt en zijn van invloed op de wijzigingen die worden toegepast. We maken gebruik van elementen van de allernieuwste spraakherkenningstechnologie om spraakconversie en -transformatie zo nauwkeurig mogelijk te vergemakkelijken - en verbeteren dit proces voortdurend. We willen mensen de mogelijkheid geven om te structureren hoe ze worden waargenomen, te klinken hoe ze willen worden gehoord en hun publiek een geweldige luisterervaring te bieden.

Waarom is het belangrijk om mensen te helpen zich uit te drukken door middel van geluid?

Vanaf het moment dat we geboren worden en het eerste geschreeuw van een baby, is geluid de natuurlijke manier waarop we leren onszelf uit te drukken. Naarmate we ouder worden, blijft het belang van audiocommunicatie groeien, omdat we leren het geluid in taal te gieten en onze stemmen te gebruiken om emotie en nuance in de woorden die we spreken te brengen. Door de toonhoogte van onze stem te verhogen, kunnen we opwinding signaleren – of geluidseffecten zoals zuchten of gekreun gebruiken om bijzondere nadruk te leggen op punten die we willen maken.

Voor sommige echt getalenteerde mensen is de stem een ​​instrument voor onbeperkte expressie, omdat ze een onbeperkt aantal geluidseffecten of stemmen kunnen creëren. De meesten van ons hebben echter niet zoveel geluk en voelen zich zelfs ongemakkelijk bij onze stemmen (vooral als we ze horen opnemen). Sommige van onze gebruikers zeggen dat ze zich nerveus voelen wanneer ze voor vreemden spreken en zijn gefrustreerd omdat ze zich niet goed kunnen uiten op de manier die ze zouden willen.

Dit is waar we een enorme kans zien om mensen te helpen. Met onze stemidentiteiten kunnen gebruikers hun stem vormen tot iets waar ze zich prettig bij voelen – of zelfs in verschillende stemmen glippen voor specifieke situaties. We willen ze ook in staat stellen geluidseffecten, muziekclips of audio-emoji's te gebruiken om sfeer te creëren, context over te brengen of komische effecten te implementeren - vergelijkbaar met hoe grafische emoji's hebben bijgedragen aan het vormgeven van tekstcommunicatie.

Je hebt Voicemod beschreven als een evoluerende menselijke verbinding door middel van geluid, zou je dit kunnen toelichten?

Naast het bevrijden van de spreker en het verwijderen van een bepaalde mentale blokkade die mensen ervan weerhoudt te spreken, werken we er ook aan om deze verbinding dieper te maken. Ons klankbord tilt communicatie bijvoorbeeld naar een hoger niveau - zie het als een "audio-emoji". Kun je je voorstellen dat mensen onder de 35 jaar chatten zonder emoji's te gebruiken? Hoewel deze technologie al zo lang lijkt te bestaan, is ze pas sinds ongeveer 2010 diep ingebed in onze communicatie. We zagen een vergelijkbare trend met stickers op berichtenplatforms, de opkomst van spraakberichten en spraakmemo's, en nu het opkomende gebruik van GIF's en Giphy. Met de schaalvergroting van wereldwijde audiocommunicatie neemt het belang van de manier waarop we geluid gebruiken toe. Het sturen van een audio-reactie op de grap van je vriend kan veel meer vertellen over je rauwe, eerlijke reactie dan alleen het typen van een zin. Stel je het verschil voor tussen het horen van het geluid van krekels en ba stom tss! Ze hebben allemaal enorm verschillende betekenissen en gevoelens die u gemakkelijk met slechts één klik kunt communiceren.

We willen het gebruikers zo gemakkelijk mogelijk maken om stemmen, stemeffecten en audio-emoji's te gebruiken om boeiendere audiogesprekken te voeren met vrienden, familie of vreemden.

Wat zijn enkele van de machine learning-technologieën achter de Voicemod-app, waaronder het mogelijk maken dat gebruikers beter klinken en hun stem aanpassen rond hun echte stem?

Machine learning vormt de kern van de meeste nieuwe Voicemod-functies.

Wat de creatieve kant betreft, heeft Voicemod's Voicelab de eerste real-time spraakconversietechnologie op de markt gecreëerd waarmee gebruikers hun eigen sonische identiteit kunnen kiezen en voor elk een persoonlijke stem kunnen creëren.

Met onze nieuwe, geavanceerde technologie die binnenkort wordt uitgebracht, creëren we nooit eerder gehoorde stemmen met unieke kenmerken die de privacy en veiligheid van gebruikers helpen beschermen, terwijl ze tegelijkertijd hun gewenste persoonlijkheid kunnen creëren door middel van geluid.

We hebben de afgelopen jaren ook datagestuurde deep learning-methodologieën zien ontstaan. Deze stellen ons in staat om abstracte verborgen structuren in spraaksignalen te leren die betrekking hebben op perceptuele kenmerken van de stem, zoals fonologie, inhoud, identiteit, intentie en stemming. Door gebruik te maken van deze technologieën kunnen we de perceptuele aspecten van het signaal controleren en wijzigen. Hierdoor kunnen we technologieën ontwerpen die gebruikers meer controle geven over hun waargenomen stemidentiteit op een manier die voorheen niet mogelijk was.

Wat zijn enkele gebruiksscenario's voor de Voicemod-app?

Het mooie van Voicemod is dat de tools voorzien in een breed scala aan behoeften en scenario's. de meest voorkomende situaties zijn het maken van inhoud, gamen met vrienden, chatten met familie of vrienden, het creëren van meeslepende rollenspelomgevingen, of zelfs voor werk en zaken - waar gebruikers voornamelijk onze tools voor ruisonderdrukking en audioverbetering gebruiken.

Kun je enkele van de uitdagingen en voordelen bespreken van het starten van een startup met broers en zussen?

Eerlijk gezegd zou ik dat heel graag willen, en ik weet dat iedereen natuurlijk op de een of andere manier met uitdagingen wordt geconfronteerd, maar ik kan me er in ons geval eigenlijk niet veel van herinneren. De reden hiervoor is dat we uit een hele grote familie komen. We deden altijd iets samen, van kinderprojecten tot muziek maken en creëren. Het was niet meer dan normaal dat we zouden gaan samenwerken. Mijn broers Fernando en Juan - die zoals ik al zei samen met mij Voicemod hebben opgericht - hadden al verschillende bedrijven samen, dus ze hadden wat dat betreft veel ervaring. Ik kwam in 2010 bij hen in hun bedrijf, dat 2taptap heette, dus ik kreeg er ook gevoel voor. Dit betekent dat toen we Voicemod creëerden, we dit volledig hebben afgestemd op wat we willen bereiken en, nog belangrijker, hoe we het willen bereiken. Als zodanig heeft het echt geholpen om een ​​zeer sterke cultuur van op elkaar afgestemde waarden in Voicemod te brengen, wat een echte sleutel tot ons succes is geweest.

Is er nog iets dat je zou willen delen over Voicemod?

Er gebeurt veel achter de schermen, maar in lijn met onze wens om geluid te ontwikkelen voor iedereen, werken we momenteel aan iets om onze technologie nog toegankelijker te maken. Een manier voor elke ontwikkelaar om onze technologie in hun product te gebruiken

We weten dat mensen het grootste deel van hun tijd online doorbrengen, terwijl ze zijn aangesloten en zich uiten op verschillende platforms en applicaties. In online omgevingen is je 'avatar' je volledige zelfrepresentatie. En echt, wie is die persoon zonder stem?

Het bouwen van real-time stemveranderende technologie en het ontwikkelen van een systeem van volledig aanpasbare sonische expressies is veel werk. Ons team heeft die stap uit de vergelijking genomen door een volledige kit te ontwerpen die eenvoudig overal door ontwikkelaars kan worden geïntegreerd. We zijn enorm verheugd om onze technologie toegankelijk te maken voor ontwikkelaars en gebruikers over de hele wereld, terwijl we blijven bouwen aan de toekomst van sociale audio-ervaringen!

Bedankt voor het geweldige interview, lezers die meer willen weten, zouden moeten bezoeken voicemod

Een van de oprichters van unite.AI en lid van de Forbes Technologieraad, Antoine is een futuristisch die gepassioneerd is over de toekomst van AI en robotica.

Hij is tevens de oprichter van Effecten.io, een website die zich richt op het investeren in disruptieve technologie.