從圖像到音頻,Stability AI 的擴散模型將改變音樂製作的遊戲規則

Stability AI,一家主要以 AI 生成視覺效果而聞名的公司,推出 Stable Audio 的文字到音頻生成式 AI 平台。Stable Audio 使用的是一種擴散模型,與該公司受歡迎的圖像工具 Stable Diffusion 所使用的 AI 模型相同,但訓練的是音頻而非圖像,使用者可以使用它來生成歌曲或任何項目的背景音樂。

從圖像到音頻,Stability AI 的擴散模型將改變音樂製作的遊戲規則

Stability AI,以 AI 生成視覺效果而聞名的公司,推出 Stable Audio 的文字到音頻生成式 AI 平台。Stable Audio 使用的是一種擴散模型,與該公司受歡迎的圖像工具 Stable Diffusion 所使用的 AI 模型相同,但訓練的是音頻而非圖像,使用者可以使用它來生成歌曲或任何項目的背景音樂。

音頻擴散模型傾向於生成固定長度的音頻,這對音樂製作來說是一個問題,因為歌曲的長度可能會有所不同。Stability AI 的新平台允許用戶製作不同長度的聲音,這需要該公司在音樂上進行訓練,並添加有關歌曲開始和結束時間的文本元數據。

根據該公司的說法,它使用“由超過 800,000 個音頻文件組成的數據集進行訓練,這些文件包含音樂、音效和單一樂器的主幹音軌”,以及來自庫存音樂許可公司 AudioSparx 的文本元數據。該數據集代表了超過 19,500 小時的聲音。Stability AI 表示,通過與一家許可公司合作,它有權使用受版權保護的材料。

與其他生成式 AI 音頻平台一樣,Stable Audio 的潛在使用案例將主要用於製作Podcast或視頻的背景音樂,用以加快這些工作流程。Stability AI 也在去年宣布計劃擴展到音頻生成、視頻和 3D 圖像。

Read more

為什麼你的 CV 明明不差,卻還是對不上理想 program?我用這套 keyword 分析法找答案

為什麼你的 CV 明明不差,卻還是對不上理想 program?我用這套 keyword 分析法找答案

選校不是只看排名,而是看 fit 這句話很多人都聽過。 但真正知道怎麼做到的人,其實不多。 大部分人的做法是: 先把 CV 整理好,去官網看一下 program 介紹,感覺不錯就投。 這樣做最大的問題是: 你是用自己的框架去看 program, 而不是用 program 的框架來看自己。 只要這個順序錯了,不管你把 CV 改得多流暢,方向都還是可能不對。 我自己曾經繞過的彎路 申請前期,我花了很多時間優化 CV。 我把每一條 bullet point 改得更精準,數字更清楚,動詞更有力。 改完之後,自己也覺得好像不錯。 但投了幾間之後,我一直有一種說不上來的感覺: 好像哪裡不太對。 後來我把其中一間學校的 program handbook 仔細讀了一遍, 才發現這個 program 真正在意的能力方向, 和我 CV 裡強調的重點其實有明顯錯位。