Stable Audio: Generative KI komponiert Musik
Die Welt der generativen Künstlichen Intelligenz (KI) hat einen bedeutenden Fortschritt gemacht. Stability AI, ein führendes Unternehmen in diesem Bereich, hat eine innovative Plattform namens Stable Audio vorgestellt. Diese Plattform nutzt latente Diffusionsmodelle, um Audiodateien zu generieren, die auf Textmetadaten sowie auf der Dauer und dem Startzeitpunkt von Audiodateien basieren.
Ein tieferer Einblick in Stable Audio
Stable Audio ist eine bahnbrechende Plattform, die latente Diffusionsmodelle nutzt, um Audiodateien zu generieren. Diese Modelle sind auf Textmetadaten sowie auf die Dauer und den Startzeitpunkt von Audiodateien konditioniert. Dies ermöglicht eine beispiellose Kontrolle über den Inhalt und die Länge des generierten Audios.
Die Einführung von auf Diffusion basierenden generativen Modellen hat das Feld der generativen KI revolutioniert. Sie haben zu schnellen Verbesserungen in der Qualität und Steuerbarkeit von generierten Bildern, Videos und Audios geführt.
Die Funktionsweise von Stable Audio
Stable Audio arbeitet mit einer stark heruntergesampelten latenten Darstellung von Audio, was zu viel schnelleren Inferenzzeiten im Vergleich zu Rohaudio führt. Mit den neuesten Fortschritten in den Diffusionssampling-Techniken kann das Flaggschiff-Modell 95 Sekunden Stereo-Audio mit einer Abtastrate von 44,1 kHz in weniger als einer Sekunde auf einer NVIDIA A100 GPU rendern.
Die Modelle bestehen aus verschiedenen Teilen, ähnlich wie Stable Diffusion: Einem variational autoencoder (VAE), einem Text-Encoder und einem U-Net-basierten konditionierten Diffusionsmodell. Der VAE komprimiert Stereo-Audio in eine datenkomprimierte, rauschresistente und umkehrbare verlustbehaftete latente Codierung, die eine schnellere Generierung und Schulung als die Arbeit mit den Roh-Audiosamples selbst ermöglicht.
Anwendungsbereiche
Stable Audio kann in einer Vielzahl von Musikgenres bis zu 95-Sekunden-Clips erzeugen. Darüber hinaus eignet es sich auch zur Erzeugung anderer Arten von Audio, einschließlich Soundeffekten.
Mit dieser Plattform können Benutzer die Generierung durch Eingabe eines Textprompts und durch Festlegen der gewünschten Dauer steuern. Einige Prompts funktionieren fantastisch, wie EDM und beatgetriebene Musik sowie Ambient-Musik. Andere erzeugen Audio, das etwas mehr “out there” ist, wie melodischere Musik, Klassik und Jazz.
Schlussfolgerung
Stable Audio markiert einen bedeutenden Fortschritt in der Welt der generativen KI. Durch die Nutzung latenter Diffusionsmodelle bietet es eine beispiellose Kontrolle über die Generierung von Audiodateien. Mit seiner Fähigkeit, hochwertige Musik für den kommerziellen Gebrauch zu erzeugen, steht es an vorderster Front bei der Erforschung neuer Möglichkeiten für KI-generierte Inhalte.