智能應用

從圖像到音頻，Stability AI 的擴散模型將改變音樂製作的遊戲規則

Stability AI，一家主要以 AI 生成視覺效果而聞名的公司，推出 Stable Audio 的文字到音頻生成式 AI 平台。Stable Audio 使用的是一種擴散模型，與該公司受歡迎的圖像工具 Stable Diffusion 所使用的 AI 模型相同，但訓練的是音頻而非圖像，使用者可以使用它來生成歌曲或任何項目的背景音樂。

Hannah

18 Sep 2023 — 2 min read

Stability AI，以 AI 生成視覺效果而聞名的公司，推出 Stable Audio 的文字到音頻生成式 AI 平台。Stable Audio 使用的是一種擴散模型，與該公司受歡迎的圖像工具 Stable Diffusion 所使用的 AI 模型相同，但訓練的是音頻而非圖像，使用者可以使用它來生成歌曲或任何項目的背景音樂。

音頻擴散模型傾向於生成固定長度的音頻，這對音樂製作來說是一個問題，因為歌曲的長度可能會有所不同。Stability AI 的新平台允許用戶製作不同長度的聲音，這需要該公司在音樂上進行訓練，並添加有關歌曲開始和結束時間的文本元數據。

根據該公司的說法，它使用“由超過 800,000 個音頻文件組成的數據集進行訓練，這些文件包含音樂、音效和單一樂器的主幹音軌”，以及來自庫存音樂許可公司 AudioSparx 的文本元數據。該數據集代表了超過 19,500 小時的聲音。Stability AI 表示，通過與一家許可公司合作，它有權使用受版權保護的材料。

與其他生成式 AI 音頻平台一樣，Stable Audio 的潛在使用案例將主要用於製作Podcast或視頻的背景音樂，用以加快這些工作流程。Stability AI 也在去年宣布計劃擴展到音頻生成、視頻和 3D 圖像。

上班族 AI 工具組合：免費仔版 vs 月付 $20 美金版，哪個適合你？

每個月到底值不值得為 AI 工具付錢？這篇整理免費版與月付 $20 美金版組合，從 Gemini、Claude、ChatGPT 到 NotebookLM、Canva、Gamma，清楚說明哪個工具做什麼任務最適合，讓上班族直接對照需求做決定。

OpenAI 史上最大募資 1,220 億美元！「下一階段 AI」，不再只是模型多強

OpenAI 完成 1220 億美元的募資，估值高達 8.520 億美元。這是 AI 史上規模最龐大的一次融資，由 Amazon、NVIDIA、SoftBank 領投，Microsoft 繼續參與。

Anthropic 一週兩次資安失誤：Claude Code 50 萬行原始碼意外裸奔，44 個隱藏功能全曝光

2026 年 3 月 31 日，Anthropic 在 npm 發布 Claude Code 2.1.88 時意外附上完整 source map，導致 512,000 行 TypeScript 原始碼公開在網路上，揭露包括永遠在線代理 KAIROS、多代理協調模式、Undercover Mode 等 44 個未公開功能，並伴隨 axios 供應鏈攻擊同日爆發。

為什麼你的 CV 明明不差，卻還是對不上理想 program？我用這套 keyword 分析法找答案

選校不是只看排名，而是看 fit 這句話很多人都聽過。但真正知道怎麼做到的人，其實不多。大部分人的做法是：先把 CV 整理好，去官網看一下 program 介紹，感覺不錯就投。這樣做最大的問題是：你是用自己的框架去看 program，而不是用 program 的框架來看自己。只要這個順序錯了，不管你把 CV 改得多流暢，方向都還是可能不對。我自己曾經繞過的彎路申請前期，我花了很多時間優化 CV。我把每一條 bullet point 改得更精準，數字更清楚，動詞更有力。改完之後，自己也覺得好像不錯。但投了幾間之後，我一直有一種說不上來的感覺：好像哪裡不太對。後來我把其中一間學校的 program handbook 仔細讀了一遍，才發現這個 program 真正在意的能力方向，和我 CV 裡強調的重點其實有明顯錯位。

Read more

上班族 AI 工具組合：免費仔版 vs 月付 $20 美金版，哪個適合你？

OpenAI 史上最大募資 1,220 億美元！「下一階段 AI」，不再只是模型多強

Anthropic 一週兩次資安失誤：Claude Code 50 萬行原始碼意外裸奔，44 個隱藏功能全曝光

為什麼你的 CV 明明不差，卻還是對不上理想 program？我用這套 keyword 分析法找答案