「Stable Diffusion」推出生成式影片工具

Stable Diffusion的開發商Stability AI近期宣布了一項重大進展:推出了名為「Stable Video Diffusion」的新型生成式影片工具。這款工具基於Stable Diffusion的圖像模型,現已進入研究預覽階段。這項技術代表了生成式視頻領域的一個顯著進步,用於從單一圖像創建視頻。

「Stable Diffusion」推出生成式影片工具

Stable Diffusion的開發商Stability AI近期宣布了一項重大進展:推出了名為「Stable Video Diffusion」的新型生成式影片工具。這款工具基於Stable Diffusion的圖像模型,現已進入研究預覽階段。這項技術代表了生成式視頻領域的一個顯著進步,用於從單一圖像創建視頻。

Stable Video Diffusion以兩種影像至視頻的模型形式推出,分別能夠生成14至25 frames的視頻片段,每秒frames數可在3至30之間調整。目前這個工具僅用於研究目的,尚不適用於實際世界或商業應用。Stability AI表示,通過外部評估,他們發現這些模型在用戶偏好研究中超越了領先的封閉模型,包括Runway和Pika Labs的文本至視頻平台​​​​。

值得注意的是,Stability AI在用戶偏好研究中顯示了這些由人類評估者在網頁介面評估的生成視頻,並讓他們根據視覺品質和對提示的遵循程度來評價視頻質量。然而即使在這些評估中Stable Video Diffusion的表現優於RunwayML和Pika Labs,Meta的新視頻模型Emu Video則在更大幅度上超越了這兩者,目前Emu Video可能仍然是最佳視頻模型,但它目前只作為研究論文和靜態網頁演示提供​​​​。

這些進展揭示了生成式視頻技術的快速發展和該領域潛力巨大的競爭環境。隨著這些模型的進一步完善和應用範圍的擴大,我們可期待未來在廣告、教育、娛樂等領域看到更多創新應用。

Read more

OpenAI 重磅發布:GPT-Realtime 引領語音 AI 新紀元,挑戰 Google 語音霸主地位

OpenAI 重磅發布:GPT-Realtime 引領語音 AI 新紀元,挑戰 Google 語音霸主地位

OpenAI 於 2025 年 8 月 28 日正式發布了革命性的「GPT-Realtime」模型以及全面升級的 Realtime API,這項發布標誌著語音 AI 技術從實驗階段邁向企業級生產應用的重要轉折點。新技術不僅在語音交互自然度上實現重大突破,更透過與電信龍頭 T-Mobile 的現場合作演示,展現了語音 AI 在實際商業場景中的巨大潛力。

【AI工具地圖】Nano-Banana 是什麼?Google 最新 AI 模型的 6 個顛覆性功能

【AI工具地圖】Nano-Banana 是什麼?Google 最新 AI 模型的 6 個顛覆性功能

想把插畫角色變成立體公仔?過去這需要專業 3D 建模與渲染,但 Google 最新的 Nano Banana AI 工具正改寫規則。只要一句自然語言指令,它就能自動完成影像編輯,甚至把 2D 角色生成逼真的 3D 公仔效果。這項技術不僅降低了創作門檻,也讓「人人都能做手辦」成為可能。雖然仍在實驗階段,但它已展現出顛覆影像編輯與設計流程的巨大潛力。

lock-1
Google「Nano Banana」正式發布:Gemini 2.5 Flash Image Preview的技術革命

Google「Nano Banana」正式發布:Gemini 2.5 Flash Image Preview的技術革命

Google DeepMind團隊今日正式揭曉了近期在社群媒體上引起瘋狂討論的神秘AI工具「Nano Banana」的真實身份——它就是Google最新發布的Gemini 2.5 Flash Image Preview。這款被Google官方稱為「state-of-the-art」的圖像生成和編輯模型,已經在LMArena排行榜上榮登全球第一的位置,並即日起在Gemini應用程式中向所有用戶免費開放。