Stummel Forscher entwickeln ein KI-Modell, das sowohl auf Chinesisch als auch auf Englisch singen kann – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

Forscher entwickeln ein KI-Modell, das sowohl auf Chinesisch als auch auf Englisch singen kann

mm
Aktualisiert on

Ein Forscherteam von Microsoft und der Zhajiang-Universität hat kürzlich ein KI-Modell entwickelt, das in zahlreichen Sprachen singen kann. Wie VentureBeat berichtete, die vom Team entwickelte DeepSinger-KI wurde darauf trainiert Daten von verschiedenen Musik-Websites mithilfe von Algorithmen, die das Timbre der Stimme des Sängers erfassten.

Um die „Stimme“ eines KI-Sängers zu erzeugen, sind Algorithmen erforderlich, die in der Lage sind, sowohl die Tonhöhe als auch die Dauer des Audios vorherzusagen und zu steuern. Wenn Menschen singen, haben die von ihnen erzeugten Geräusche weitaus komplexere Rhythmen und Muster als einfache Sprache. Ein weiteres Problem, das das Team überwinden musste, bestand darin, dass zwar eine ganze Menge Daten zum Sprech-/Sprechtraining verfügbar sind, Datensätze zum Gesangstraining jedoch eher selten sind. Kombiniert man diese Herausforderungen mit der Tatsache, dass bei Liedern sowohl der Klang als auch die Texte analysiert werden müssen, ist das Problem, Gesang zu erzeugen, unglaublich komplex.

Das von den Forschern entwickelte DeepSinger-System meisterte diese Herausforderungen, indem es eine Datenpipeline entwickelte, die Audiodaten extrahierte und transformierte. Die Gesangsausschnitte wurden von verschiedenen Musik-Websites extrahiert, und dann wird der Gesang vom Rest des Audiomaterials isoliert und in Sätze unterteilt. Der nächste Schritt bestand darin, die Dauer jedes Phonems im Liedtext zu bestimmen, was zu einer Reihe von Samples führte, die jeweils ein einzigartiges Phonem im Liedtext darstellten. Die Bereinigung der Daten erfolgt, um etwaige verzerrte Trainingsbeispiele zu beseitigen, nachdem die Liedtexte und begleitenden Audiobeispiele nach der Konfidenzbewertung sortiert wurden.

Die exakt gleichen Methoden scheinen für eine Vielzahl von Sprachen zu funktionieren. DeepSinger wurde über 89 Stunden lang an chinesischen, kantonesischen und englischen Gesangsproben von 92 verschiedenen Sängern trainiert. Die Ergebnisse der Studie ergaben, dass das DeepSinger-System zuverlässig qualitativ hochwertige „Gesangs“-Samples erzeugen konnte, basierend auf Maßstäben wie der Genauigkeit der Tonhöhe und dem natürlichen Klang des Gesangs. Die Forscher ließen 20 Personen sowohl die von DeepSinger generierten Lieder als auch die Trainingslieder anhand dieser Metriken bewerten, und die Lücke zwischen den Ergebnissen für die generierten Samples und echten Audiodaten war recht gering. Die Teilnehmer gaben DeepSinger einen durchschnittlichen Meinungswert, der zwischen 0.34 und 0.76 abwich.

Zukünftig wollen die Forscher versuchen, die Qualität der erzeugten Stimmen zu verbessern, indem sie die verschiedenen Submodelle, aus denen DeepSinger besteht, gemeinsam trainieren. Dies geschieht mit Hilfe von Spezialtechnologien wie WaveNet, die speziell für die Aufgabe entwickelt wurden, durch Audiowellenformen natürlich klingende Sprache zu erzeugen .

Das DeepSinger-System könnte Sängern und anderen Musikern dabei helfen, Korrekturen an der Arbeit vorzunehmen, ohne für eine weitere Aufnahmesitzung ins Studio zurückkehren zu müssen. IT könnte möglicherweise auch dazu verwendet werden, Audio-Deepfakes zu erstellen, die den Eindruck erwecken, als würde ein Künstler ein Lied singen, das er eigentlich nie gesungen hat. Obwohl es für Parodien oder Satire verwendet werden könnte, ist es auch von zweifelhafter Rechtmäßigkeit.

DeepSinger ist nur eines von vielen neuen KI-basierten Musik- und Audiosystemen, die die Interaktion von Musik und Software verändern könnten. OpenAI hat kürzlich sein eigenes KI-System veröffentlicht, genannt JukeBox, das in der Lage ist, Originalmusiktitel im Stil eines bestimmten Genres oder sogar eines bestimmten Künstlers zu produzieren. Zu den weiteren musikalischen KI-Tools gehören: Googles Magenta und Amazons DeepComposer. Magnets ist eine Open-Source-Bibliothek zur Audio- (und Bild-)Bearbeitung, mit der sich alles von automatisierter Trommelbegleitung bis hin zu einfachen musikbasierten Videospielen produzieren lässt. Mittlerweile richtet sich Amazons DeepComposer an diejenigen, die ihre eigenen musikbasierten Deep-Learning-Modelle trainieren und anpassen möchten, sodass der Benutzer vorab trainierte Beispielmodelle verwenden und die Modelle an seine Bedürfnisse anpassen kann.

Sie können sich einige der von DeepSinger generierten Audiobeispiele anhören unter diesem Link.