Connect with us

Matt Hocking, Co-Founder von WellSaid Labs – Interview-Serie

Interviews

Matt Hocking, Co-Founder von WellSaid Labs – Interview-Serie

mm

Matt Hocking ist der Co-Founder von WellSaid Labs, einem führenden Unternehmen im Bereich von Unternehmens-AI-Sprachgeneratoren. Er verfügt über mehr als 15 Jahre Erfahrung in der Leitung von Teams und der Bereitstellung von Technologielösungen im großen Maßstab.

Ihre Vergangenheit ist ziemlich unternehmerisch geprägt, wie sind Sie ursprünglich in den Bereich KI eingestiegen?

Ich denke, ich habe mich immer als ziemlich unternehmerisch betrachtet. Ich habe mein erstes Unternehmen direkt nach dem College gegründet und mit einem Hintergrund in Produktgestaltung habe ich mich oft gefunden, indem ich anderen bei frühen Ideen half. Im Laufe meiner Karriere hatte ich das Glück, mit einer Reihe von Start-ups zu arbeiten, die einige ziemlich unglaubliche Erfolge hatten. Während dieser Erfahrungen hatte ich die Gelegenheit, eine Menge großartiger Gründer direkt zu erleben, was mich inspirierte, meine eigenen Ideen als Gründer zu verfolgen. KI war mir relativ neu, als ich zu AI2 kam; jedoch bot mir diese Erfahrung die Gelegenheit, meine Produkt- und Start-up-Brille auf einige truly erstaunliche Forschungen anzuwenden und mir vorzustellen, wie diese neuen Fortschritte in den kommenden Jahren vielen Menschen helfen könnten. Mein Ziel von Anfang an war es, echte Geschäfte für echte Menschen zu entwickeln, und ich glaube, dass KI das Potenzial hat, viele aufregende Möglichkeiten und Effizienzen in unserer Zukunft zu schaffen, wenn sie sorgfältig eingesetzt wird.

Können Sie die Geschichte erzählen, wie die Idee für WellSaid Labs entstand, als Sie als Entrepreneur in Residence am The Allen Institute for AI waren?

Ich trat The Allen Institute for Artificial Intelligence (AI2) 2018 als Entrepreneur in Residence bei. Als wahrscheinlich das innovativste Inkubator der Welt beherbergt AI2 die hellsten Köpfe in der KI, die Lösungen von der Grenze dessen, was heute möglich ist, auf greifbare Produkte anwenden, die Probleme auf der ganzen Welt lösen. Mein Hintergrund in Design und Technologie nährte ein langfristiges Interesse an den kreativen Feldern, und mit dem KI-Boom, den wir heute alle miterleben, wollte ich eine Möglichkeit erforschen, die beiden zu verbinden. Ich wurde Michael Petrochuk (Co-Founder und CTO von WellSaid Labs) vorgestellt, während ich an einer interaktiven Healthcare-App arbeitete, die den Patienten durch verschiedene sensible Szenarien führte. Während des Prozesses der Entwicklung des Inhalts für die Erfahrung arbeitete mein Team mit Sprechern zusammen, um Tausende von Zeilen von Voiceover für den Avatar vorab aufzunehmen. Als ich einige der Durchbrüche sah, die Michael während seiner Forschung erzielt hatte, sahen wir beide schnell den Wert, den menschliche Text-zu-Sprache-Technologie (TTS) nicht nur dem Produkt, an dem ich arbeitete, sondern auch anderen Anwendungen und Branchen verleihen konnte. Technologie und Tooling hatten Schwierigkeiten, mit den Bedürfnissen der Produzenten Schritt zu halten, die mit der Stimme als Medium arbeiteten. Wir sahen einen Weg, diese Technologie in die Hände aller Schöpfer zu legen, um die Stimme zu einem integralen Bestandteil aller Geschichten zu machen.

WellSaid Labs ist eines der wenigen Unternehmen, das Schauspielern eine Möglichkeit bietet, in den KI-Sprechbereich einzusteigen. Warum glaubten Sie, es sei wichtig, echte Stimmen in das Produkt zu integrieren?

Unsere Antwort darauf ist zweigeteilt: Erstens wollten wir Lösungen entwickeln, die die Fähigkeiten professioneller Sprecher ergänzen und die Möglichkeiten für die Stimme erweitern. Zweitens streben wir danach, das höchste Level an menschlicher Qualität in unseren Produkten zu haben. Unsere Sprecher sind langfristige Kooperationspartner und erhalten eine Vergütung und einen Anteil am Umsatz für ihre Stimmdaten und den daraus resultierenden Inhalt. Jeder Sprecher, den wir einstellen, um ein KI-Stimmenavatar auf der Grundlage seines Stimmbildes zu erstellen, wird auf der Grundlage der Nutzung seiner Stimme auf unserer Plattform bezahlt. Wir ermutigen Talent, mit uns zusammenzuarbeiten; eine faire Vergütung für ihre Beiträge ist uns sehr wichtig.

Um das höchste Level an menschlicher Qualität in unseren Produkten zu bieten, müssen wir streng darauf achten, woher wir unsere Daten bekommen. Dieser Prozess gibt uns mehr Kontrolle über die Qualität, da wir unsere Deep-Learning-Modelle trainieren, um sowohl menschliche Parität als auch kontextuell relevante Stile zu sprechen. Wir erstellen nicht einfach eine Stimme, die den bereitgestellten Input vorträgt. Unsere Modelle bieten eine Vielzahl von Stimmen, die das auf der Seite Stehende ausführen. Ob Benutzer Voiceover mit einem Avatar aus unserer Bibliothek erstellen oder Voiceover mit einer benutzerdefinierten Stimme für ihre Marke erstellen, verwenden wir echte Stimmdaten, um einen nahtlosen Prozess und eine benutzerfreundliche Plattform zu gewährleisten. Wenn unsere Kunden unsere Stimmen in der Postproduktion manipulieren und bearbeiten müssten, um die gewünschte Ausgabe zu erhalten, wäre der Prozess umständlich und langwierig. Unsere Stimmen berücksichtigen den Kontext des geschriebenen Inhalts und liefern eine kontextuell genaue Lesung. Wir bieten Stimmen für alle Arten von Anwendungsfällen an – ob es sich um das Vorlesen von Nachrichten, die Erstellung von Audio-Werbung oder automatisierte Call-Center-Unterstützung handelt –, so dass die Partnerschaft mit professionellen Sprechern für jeden Anwendungsfall uns sowohl Kontext als auch hochwertige Stimmdaten liefert.

Wir aktualisieren und fügen regelmäßig neue Stile und Akzente zu unserer Avatar-Bibliothek hinzu, um sicherzustellen, dass wir die Stimmen unserer Kunden repräsentieren. In WellSaid Labs’ Studio können Kunden und Marken verschiedene Stimmen basierend auf Region, Stil und Anwendungsfall vorspielen, um eine nahtlosere, einheitlichere Produktion von Audio-Inhalten zu ermöglichen, die auf die Bedürfnisse des Schöpfers zugeschnitten ist. Sobald eine erste Aufnahme sampelt wurde, können Benutzer bestimmte Wörter, Schreibweisen und Aussprachen angeben, um sicherzustellen, dass die KI konsistent spezifisch auf ihre Bedürfnisse eingeht.

WellSaid Labs beansprucht, die erste ethische KI-Stimmenplattform zu sein. Warum sind KI-Ethik für Sie wichtig?

Da die Nutzung von KI zunimmt und immer mainstreamer wird, stehen Ängste vor schädlichen Anwendungsfällen und schlechten Akteuren im Mittelpunkt jeder Konversation – und diese Bedenken werden leider durch reale Ereignisse bestätigt. KI-Stimme ist keine Ausnahme; fast jeden Tag gibt es einen neuen Bericht über einen Prominenten, eine öffentliche Figur oder einen Politiker, der für Werbezwecke oder politische Zwecke tiefgefälscht wird. Obwohl formale Bundesregulierungen bezüglich dieser Technologie noch im Entwicklungsstadium sind, wird es immer schwieriger, bösartige Akteure und den Missbrauch von synthetischer Stimme zu erkennen und zu bekämpfen, da die Technologie weiter fortschreitet.

Da wir aus AI2 kommen, wo KI-Ethik ein grundlegendes Prinzip ist, hatten Michael und ich diese Gespräche am ersten Tag. Die Entwicklung von KI-Sprachtechnologie geht mit erheblichen Verantwortungen in Bezug auf Zustimmung, Privatsphäre und allgemeine Sicherheit einher. Wir wissen, dass wir als Entwickler unsere Technologie sicher aufbauen, ethische Bedenken ansprechen und den Grundstein für die zukünftige Entwicklung von synthetischen Stimmen legen müssen. Wir erkennen das Potenzial von KI-Sprachtechnologie für Missbrauch und akzeptieren unsere Verantwortung, den potenziellen Missbrauch unseres Produkts zu reduzieren. Wir müssen diesen Grundstein von Tag eins legen, anstatt schnell voranzustürmen und unterwegs Fehler zu machen. Das wäre nicht richtig gegenüber unseren Unternehmenskunden und Sprechern, die auf uns zählen, um ein hochwertiges, vertrauenswürdiges Produkt zu bauen.

Wir unterstützen voll und ganz den Ruf nach Gesetzgebung in diesem Bereich; jedoch werden wir nicht warten, bis Bundesregulierungen erlassen werden. Wir haben immer Vorrang vor Praktiken gegeben, die Privatsphäre, Sicherheit, Transparenz und Rechenschaftspflicht unterstützen.

Wir halten uns strikt an unseren ethischen Verhaltenskodex, der auf verantwortungsvoller Innovation bei jeder Entscheidung basiert. Dies liegt im besten Interesse unserer globalen Kunden – Unternehmensmarken.

Wie entwickeln Sie eine ethische KI-Stimmenplattform?

WellSaid Labs hat sich von Anfang an zu ethischer Innovation bekannt. Wir zentralisieren Vertrauen und Transparenz durch die Verwendung von internen Datenmodellen, expliziten Zustimmungsanforderungen, unserem Content-Moderationsprogramm und unserem Engagement für Markenschutz. Bei WellSaid stützen wir uns auf die Prinzipien von Verantwortungsvoller KI, um unsere Entscheidungen und Designs zu gestalten, und diese Prinzipien erstrecken sich auf die Verwendung unserer Stimmen. Unser Ethik-Kodex repräsentiert diese Prinzipien als Rechenschaftspflicht, Transparenz, Privatsphäre und Sicherheit sowie Fairness.

Rechenschaftspflicht: Wir halten strenge Standards für angemessenen Inhalt aufrecht, die den Einsatz unserer Stimmen für Inhalte, die schädlich, hassvoll, betrügerisch oder darauf abzielen, Gewalt zu provozieren, verbieten. Unser Trust- und Sicherheitsteam hält diese Standards mit einem strengen Content-Moderationsprogramm aufrecht, das Benutzer blockiert und entfernt, die versuchen, unsere Nutzungsbedingungen zu verletzen.

Transparenz: Wir erfordern explizite Zustimmung, bevor wir eine synthetische Stimme mit den Stimmdaten einer Person erstellen. Benutzer können keine Stimmdaten von Politikern, Prominenten oder anderen Personen hochladen, um eine Kopie ihrer Stimme zu erstellen, es sei denn, wir haben die schriftliche Zustimmung dieser Person.

Privatsphäre und Sicherheit: Wir schützen die Identitäten unserer Sprecher, indem wir Lagerbilder und Aliase verwenden, um die synthetischen Stimmen darzustellen. Wir ermutigen sie auch, Vorsicht walten zu lassen, wie und mit wem sie ihre Verbindung mit WellSaid Labs oder anderen synthetischen Stimmenunternehmen teilen, um die Gelegenheit für Missbrauch ihrer Stimme zu verringern.

Fairness: Wir vergüten alle Sprecher, die Stimmdaten für unsere Plattform bereitstellen, und bieten ihnen eine laufende Umsatzbeteiligung für die Verwendung der synthetischen Stimme, die wir mit ihren Daten erstellen.

Zusammen mit diesen Prinzipien respektieren wir auch streng geistiges Eigentum. Wir beanspruchen nicht das Eigentum an Inhalten, die unsere Benutzer oder Sprecher bereitstellen. Wir priorisieren Integrität, Fairness und Transparenz in allem, was wir tun, um sicherzustellen, dass unsere synthetische Sprachtechnologie verantwortungsvoll und ethisch eingesetzt wird. Wir suchen aktiv nach Partnerschaften mit Stimmen aus verschiedenen Hintergründen und Erfahrungen, um sicherzustellen, dass WellSaid Labs’ Bibliothek von Stimmen ihre Schöpfer und Zuhörer widerspiegelt. Diese Prozesse sind darauf ausgelegt, absichtlich und detailorientiert zu sein, um sicherzustellen, dass unsere Technologie so sicher und ethisch wie möglich eingesetzt wird, was die Entwicklung und den Startzeitplan verlangsamen kann.

Welche Herausforderungen gibt es beim Aufbau eines KI-Stimmenunternehmens?

Die Entwicklung von KI-Stimmentechnologie hat eine ganz neue Reihe von Hindernissen für ihre Hersteller und Verbraucher geschaffen. Eine der Hauptherausforderungen besteht darin, nicht in dem Lärm und der Hype aufzugehen, die den KI-Sektor fluten. Als neue, heiße Technologie versuchen viele Organisationen, sich auf kurzfristige KI-Stimmenentwicklungen zu konzentrieren. Wir wollen eine Stimme für jeden bieten, geleitet von zentralen ethischen Prinzipien und Authentizität. Diese Bindung an Authentizität kann die Entwicklung und Bereitstellung unserer Technologien verzögern, aber sie festigt die Sicherheit und Sicherheit von WellSaid-Stimmen und ihren Daten.

Eine weitere Herausforderung bei der Entwicklung unserer TTS-Plattform bestand darin, spezifische Zustimmungsrichtlinien zu entwickeln, um sicherzustellen, dass Organisationen oder einzelne Akteure unsere Technologie nicht missbrauchen. Um diese Herausforderung zu meistern, suchen wir nach kooperativen, langfristigen Partnerschaften und sind voll in die Voiceover-Entwicklung involviert, um Rechenschaftspflicht, Transparenz und Benutzersicherheit zu erhöhen. Wir suchen aktiv nach Partnerschaften mit Sprechern aus verschiedenen Hintergründen, Organisationen und Erfahrungen, um sicherzustellen, dass WellSaid Labs’ Bibliothek von Stimmen ihre Schöpfer und Zuhörer widerspiegelt. Diese Prozesse sind darauf ausgelegt, absichtlich und detailorientiert zu sein, um sicherzustellen, dass unsere Technologie so sicher und ethisch wie möglich eingesetzt wird, was die Entwicklung und den Startzeitplan verlangsamen kann.

Was ist Ihre Vision für die Zukunft von generativen KI-Stimmen?

Für die längste Zeit hat KI-Sprachtechnologie nicht die erforderliche Qualität erreicht, um es Unternehmen zu ermöglichen, sinnvolle Inhalte im großen Maßstab zu erstellen. Jetzt, da Audio-Technologie keine teuren Geräte und Hardware mehr erfordert, kann jeder geschriebene Inhalt in einem Audio-Format produziert und veröffentlicht werden, um ansprechende, multimodale Erfahrungen zu schaffen.

Heute können KI-Stimmen menschliche Audio-Dateien erzeugen und die Nuancen erfassen, die erforderlich sind, um digitale Erzählungen zugänglicher und natürlicher zu machen. Die Zukunft von generativen KI-Stimmen wird alle umfassenden hörbaren Erfahrungen umfassen, die jeden Aspekt unseres Lebens berühren. Da die Technologie weiter fortschreitet, werden wir zunehmend natürliche und ausdrucksstarke synthetische Stimmen sehen, die die Grenze zwischen menschlicher und maschinengenerierter Sprache verwischen – und neue Türen für Geschäfte, Kommunikation, Zugänglichkeit und die Art und Weise, wie wir mit der Welt um uns herum interagieren, öffnen.

Unternehmen werden eine verbesserte Personalisierung in KI-Stimmen-Schnittstellen finden und sie verwenden, um Interaktionen mit virtuellen Assistenten immersiver und benutzerfreundlicher zu machen. Diese Verbesserungen finden bereits statt, von intelligenten Call-Center-Agenten bis hin zu Fast-Food-Drive-ins. Die Content-Erstellung, einschließlich Werbung, Produktmarketing, Nachrichten-Vorlesen, Podcasts, Hörbüchern und anderen Multimedia-Inhalten, wird durch die Verwendung von Tools zur Entwicklung von ansprechenden Inhalten effizienter, was letztendlich zu mehr Umsatz und Gewinn für Organisationen führt, insbesondere jetzt, da multilinguale Modelle es einem Unternehmen ermöglichen, von einem einzigen Punkt aus eine globale Präsenz zu haben. Produktions-Teams werden großen Nutzen aus synthetischen Stimmen ziehen, um Stimmen zu erstellen, die auf die Bedürfnisse der Marke oder des Zuhörers zugeschnitten sind.

Bevor die Einführung von KI, mangelte es der TTS-Technologie an der entscheidenden menschlichen Emotion, Intonation und Aussprache, die erforderlich sind, um eine vollständige Geschichte im großen Maßstab und mit Leichtigkeit zu erzählen. Jetzt bietet KI-gestützte TTS immersive und zugänglichere Erfahrungen, einschließlich Echtzeit-Sprachfähigkeiten und interaktiver Gesprächsagenten.

Die Erreichung menschlicher Sprachfähigkeiten war eine Reise, aber jetzt, da sie erreichbar ist, sehen wir den vollen Umfang von KI-Stimme, um echten Geschäftswert für Organisationen zu schaffen.

Vielen Dank für das großartige Interview, Leser, die mehr erfahren möchten, sollten WellSaid Labs besuchen.

Antoine ist ein visionärer Führer und Gründungspartner von Unite.AI, getrieben von einer unerschütterlichen Leidenschaft für die Gestaltung und Förderung der Zukunft von KI und Robotik. Ein Serienunternehmer, glaubt er, dass KI so disruptiv für die Gesellschaft sein wird wie Elektrizität, und wird oft dabei ertappt, wie er über das Potenzial disruptiver Technologien und AGI schwärmt.

Als futurist ist er darauf fokussiert, zu erforschen, wie diese Innovationen unsere Welt formen werden. Zusätzlich ist er der Gründer von Securities.io, einer Plattform, die sich auf Investitionen in hochmoderne Technologien konzentriert, die die Zukunft neu definieren und ganze Branchen umgestalten.