從圖像到音頻,Stability AI 的擴散模型將改變音樂製作的遊戲規則

從圖像到音頻,Stability AI 的擴散模型將改變音樂製作的遊戲規則

Stability AI,以 AI 生成視覺效果而聞名的公司,推出 Stable Audio 的文字到音頻生成式 AI 平台。Stable Audio 使用的是一種擴散模型,與該公司受歡迎的圖像工具 Stable Diffusion 所使用的 AI 模型相同,但訓練的是音頻而非圖像,使用者可以使用它來生成歌曲或任何項目的背景音樂。

音頻擴散模型傾向於生成固定長度的音頻,這對音樂製作來說是一個問題,因為歌曲的長度可能會有所不同。Stability AI 的新平台允許用戶製作不同長度的聲音,這需要該公司在音樂上進行訓練,並添加有關歌曲開始和結束時間的文本元數據。

根據該公司的說法,它使用“由超過 800,000 個音頻文件組成的數據集進行訓練,這些文件包含音樂、音效和單一樂器的主幹音軌”,以及來自庫存音樂許可公司 AudioSparx 的文本元數據。該數據集代表了超過 19,500 小時的聲音。Stability AI 表示,通過與一家許可公司合作,它有權使用受版權保護的材料。

與其他生成式 AI 音頻平台一樣,Stable Audio 的潛在使用案例將主要用於製作Podcast或視頻的背景音樂,用以加快這些工作流程。Stability AI 也在去年宣布計劃擴展到音頻生成、視頻和 3D 圖像。

Leave a Reply

Your email address will not be published. Required fields are marked *