Einem KI-Bildgenerator wurde beigebracht, Musik zu erstellen

Musik, die von künstlicher Intelligenz (KI) generiert wird, ist bereits Realität geworden. KI-Tools können jetzt Musik nur mit einer Texteingabeaufforderung erstellen, und die Ergebnisse übertreffen alle Erwartungen.

Dies bedeutet jedoch nicht, dass KI-Tools direkt Musik erstellen können. Stattdessen durchläuft die Musik KI-Bildgeneratoren, die Spektrogramme der Musik erstellen. Sie können diese Spektrogramme dann in Audioclips umwandeln. Bedeutet dies, dass KI-generierte Musik in Zukunft von Menschen gemachte Musik ersetzen wird?

Bildbasierte KI bringt Computeralgorithmen bei, Bilder von Orten und Objekten zu erkennen. Danach werden Algorithmen verwendet, um ähnliche, aber einzigartige Bilder zu reproduzieren. DALL-E und Stable Diffusion sind gute Beispiele. Im Moment können Sie mit diesen Programmen alles rendern, was Sie wollen. Alles durch Text!

Das KI-Tool, das Spektrogramme erstellen kann, heißt also Riffusion. Dies ist das neueste KI-Projekt und im Wesentlichen ein Generator von Bildern aus Text, der auf stabiler Diffusion (Stable Diffusion) basiert. Aber wie wurde er fähig, Musik zu machen?

Hinter Riffus stehen der Robotiker Heik Martiros und der Softwareentwickler Seth Forsgren. Sie wollten testen, ob moderne KI-Programme im Audiobereich funktionieren könnten. So begann Riffus' musikalische Reise. Forsgren spricht über die Technologie so: „Hake und ich spielen zusammen in einer kleinen Band, und wir haben das Projekt gestartet, weil wir Musik lieben. Nachdem wir die beeindruckenden Ergebnisse von Stable Diffusion für die Bildgenerierung gesehen hatten, fragten wir uns, wie es aussehen würde, einen Diffusionsansatz zum Erstellen von Musik zu verwenden.

Um das herauszufinden, trainierte ein zweiköpfiges Team die Open-Source-Methode Stable Diffusion mit Spektrogrammbildern. Sie wurden mit dem Text kombiniert. Danach war das Programm in der Lage, anhand bestimmter Hinweise Spektrogramme der Musik zu erstellen.

Zunächst wussten sie nicht, ob die Stable Diffusion-Modellarchitektur ein Spektrogrammbild mit ausreichender Genauigkeit für die Konvertierung in Audio erzeugen könnte, aber es stellte sich heraus, dass es dies und mehr tun konnte. Martiros und Forsgren veröffentlichten ihre Ergebnisse auf der offiziellen Riffus-Website. Am Anfang war es ein Hobbyprojekt. Aber jetzt können Besucher ihre eigenen Texttipps hinzufügen. Dadurch wird Riffusion gezwungen, ein Spektrogramm zu erstellen. Später können Besucher es als Audioclip verwenden und auf der Website abspielen.

Die Ergebnisse in dieser Phase sind möglicherweise nicht von sehr hoher Qualität. Aber es ist definitiv nicht so schlimm, wie Sie vielleicht denken.

Riffus kann auch versuchen, Songs zu spielen, die enthalten Rap im Stil von Eminem und K-Pop. Aber die Funktion zum Generieren von Texten ist nicht so gut. Anstelle von Text hören Sie wohlklingendes menschliches Kauderwelsch. Aber das Interessanteste ist, dass dieses Kauderwelsch immer noch zum Ton des Songs passt.

Diese Technologie ist noch nicht bereit, von Menschen gemachte Musik zu ersetzen. Aber das Projekt hat uns gezeigt, dass KI-Bildverarbeitungsalgorithmen noch großes Potenzial haben. Bald kann es ein Assistent für Musikautoren werden. Vielleicht um etwas Inspiration zu bekommen, um einen Song zu schreiben.

Sie können der Ukraine helfen, gegen die russischen Invasoren zu kämpfen. Der beste Weg, dies zu tun, besteht darin, Gelder an die Streitkräfte der Ukraine zu spenden Das Leben retten oder über die offizielle Seite NBU.

Auch interessant:

Quellegizchina

Anmelden

0 Ihre Nachricht

Eingebettete Bewertungen

Alle Kommentare anzeigen

Andere Artikel

Einem KI-Bildgenerator wurde beigebracht, Musik zu erstellen

Letzte Kommentare