Root NationNachrichtenIT-NeuigkeitenNeue KI Microsoft ahmt die Stimme einer beliebigen Person anhand eines 3-Sekunden-Audiobeispiels nach

Neue KI Microsoft ahmt die Stimme einer beliebigen Person anhand eines 3-Sekunden-Audiobeispiels nach

-

Am Donnerstag, Forscher Microsoft kündigte ein neues Modell für künstliche Intelligenz (KI) namens VALL-E an, das eine menschliche Stimme genau nachahmen kann, wenn ihm ein drei Sekunden langes Audiobeispiel gegeben wird. Sobald es eine bestimmte Stimme gelernt hat, kann VALL-E den Ton dieser Person synthetisieren, während der emotionale Ton des Sprechers erhalten bleibt.

Die Autoren schlagen vor, dass VALL-E für hochwertige Text-zu-Sprache-Sprachbearbeitung verwendet werden kann, bei der die Aufnahme einer Person bearbeitet und von einer Texttranskription geändert werden kann (was sie dazu bringt, Dinge zu sagen, die sie ursprünglich nicht gesagt haben) und zum Erstellen von Audioinhalten in Kombination mit anderen generativen KI-Modellen wie z GPT-3.

Microsoft AI VALL-E

Microsoft nennt VALL-E ein „Neural Codec Language Model“ und basiert auf einer Technologie namens EnCodec, die Meta im Oktober 2022 angekündigt hat. Im Gegensatz zu anderen Text-to-Speech-Methoden, die normalerweise Sprache durch Manipulation von Wellenformen synthetisieren, erzeugt VALL-E diskretes Audio Codec-Codes aus Text- und akustischen Ansagen. Es analysiert grundsätzlich, wie eine Person klingt, zerlegt diese Informationen dank EnCodec in diskrete Komponenten (sogenannte „Tokens“) und verwendet Trainingsdaten, um mit dem abzugleichen, was es darüber „weiß“, wie diese Stimme klingen würde, wenn sie draußen andere Sätze sprechen würde des Drei-Sekunden-Samples.

Microsoft trainierte die Sprachsynthesefähigkeiten von VALL-E anhand einer von Meta zusammengestellten Audiobibliothek namens LibriLight. Es enthält 60 Stunden englischsprachiger Sendungen von mehr als 7 Sprechern, größtenteils aus öffentlich erhältlichen LibriVox-Hörbüchern.

VALL-E bewahrt nicht nur die Klangfarbe und den emotionalen Ton des Ansagers, sondern kann auch die „akustische Umgebung“ des Audiobeispiels simulieren. Wenn die Probe beispielsweise aus einem Telefongespräch stammt, simuliert die synthetisierte Audioausgabe die akustischen und Frequenzeigenschaften des Telefongesprächs. Auch Proben Microsoft zeigen, dass VALL-E Variationen der Stimmklangfarbe erzeugen kann.

Microsoft AI VALL-E

Vielleicht aufgrund der Fähigkeit von VALL-E, potenziell Betrug und Täuschung zu erleichtern, Microsoft hat den VALL-E-Code nicht zum Experimentieren für andere bereitgestellt, sodass wir seine Fähigkeiten nicht testen können. Forscher scheinen sich des potenziellen sozialen Schadens bewusst zu sein, den diese Technologie mit sich bringen könnte. Im Fazit des Artikels schreiben sie:

„Da VALL-E Sprache synthetisieren kann, die die Identität des Sprechers bewahrt, kann es potenzielle Risiken des Modellmissbrauchs bergen, wie z. B. das Spoofing der Spracherkennung oder die Identität eines bestimmten Sprechers. Um solche Risiken zu reduzieren, wird ein Erkennungsmodell erstellt, um zu unterscheiden, ob ein Audioclip mit VALL-E synthetisiert wurde."

Sie können der Ukraine helfen, gegen die russischen Invasoren zu kämpfen. Der beste Weg, dies zu tun, besteht darin, Gelder an die Streitkräfte der Ukraine zu spenden Das Leben retten oder über die offizielle Seite NBU.

Lesen Sie auch:

Anmelden
Benachrichtigen Sie über
Gast

0 Ihre Nachricht
Eingebettete Bewertungen
Alle Kommentare anzeigen
Andere Artikel
Abonnieren Sie Updates
Beliebt jetzt