從圖像到音頻,Stability AI 的擴散模型將改變音樂製作的遊戲規則

Stability AI,一家主要以 AI 生成視覺效果而聞名的公司,推出 Stable Audio 的文字到音頻生成式 AI 平台。Stable Audio 使用的是一種擴散模型,與該公司受歡迎的圖像工具 Stable Diffusion 所使用的 AI 模型相同,但訓練的是音頻而非圖像,使用者可以使用它來生成歌曲或任何項目的背景音樂。

從圖像到音頻,Stability AI 的擴散模型將改變音樂製作的遊戲規則

Stability AI,以 AI 生成視覺效果而聞名的公司,推出 Stable Audio 的文字到音頻生成式 AI 平台。Stable Audio 使用的是一種擴散模型,與該公司受歡迎的圖像工具 Stable Diffusion 所使用的 AI 模型相同,但訓練的是音頻而非圖像,使用者可以使用它來生成歌曲或任何項目的背景音樂。

音頻擴散模型傾向於生成固定長度的音頻,這對音樂製作來說是一個問題,因為歌曲的長度可能會有所不同。Stability AI 的新平台允許用戶製作不同長度的聲音,這需要該公司在音樂上進行訓練,並添加有關歌曲開始和結束時間的文本元數據。

根據該公司的說法,它使用“由超過 800,000 個音頻文件組成的數據集進行訓練,這些文件包含音樂、音效和單一樂器的主幹音軌”,以及來自庫存音樂許可公司 AudioSparx 的文本元數據。該數據集代表了超過 19,500 小時的聲音。Stability AI 表示,通過與一家許可公司合作,它有權使用受版權保護的材料。

與其他生成式 AI 音頻平台一樣,Stable Audio 的潛在使用案例將主要用於製作Podcast或視頻的背景音樂,用以加快這些工作流程。Stability AI 也在去年宣布計劃擴展到音頻生成、視頻和 3D 圖像。

Read more

全球第一位「AI 官員」上任,阿爾巴尼亞任命 AI 為內閣

全球第一位「AI 官員」上任,阿爾巴尼亞任命 AI 為內閣

從 AI 官員到語音翻譯,AI 這週正式「入職」現實世界。 阿爾巴尼亞任命全球首位 AI 部長,開啟政府決策新實驗;Google Meet 推出 2 秒內完成的即時語音翻譯,打破語言隔閡;Claude 則正式變身職場助理,能幫你轉檔寫簡報;而在內容世界,AI 播客工廠每週量產 3,000 集節目,一集成本不到 1 美元。 但這波 AI 熱潮是否過熱?OpenAI 董事長 Bret Taylor 坦言「泡沫存在,但這沒關係」,因為創造力會留下來──這週的新聞,也讓我們看見 AI 正從實驗室,跨出螢幕,成為真正的社會角色。

lock-1
Tucker Carlson激辯Sam Altman:OpenAI前員工死亡事件掀起AI倫理風暴

Tucker Carlson激辯Sam Altman:OpenAI前員工死亡事件掀起AI倫理風暴

一場原本談論AI未來的訪談,演變成針對神秘死亡事件的激烈質疑,版權爭議與企業責任問題浮上檯面 當保守派媒體巨頭Tucker Carlson與科技界領袖Sam Altman在鏡頭前針鋒相對時,整個人工智慧產業都為之震動。這場2025年9月10日播出的專訪,原本應該聚焦於AI技術的未來發展,卻因為一起神秘的死亡事件而演變成一場毫不留情的質疑與辯駁。在長達57分鐘的對談中,Carlson直接挑戰OpenAI執行長對前員工Suchir Balaji離世事件的解釋,不僅揭露了科技巨頭內部的版權爭議,更引發外界對企業倫理與員工安全的深度關切。