OpenAI推出新模型「GPT-4o」,表現炸裂全場

OpenAI於5月13日的線上發表會上推出了新型人工智慧(AI)模型「GPT-4o」,這款模型具備語言、文本和視覺推理能力,並在文本、影片和音頻方面均有所提升,所有用戶將能免費使用。此外,該公司還推出了桌上型電腦版本ChatGP和新的用戶介面,為擴大其廣受歡迎的聊天機器人市場做足了準備。

下一代 AI 革命:OpenAI 與 Meta 新推出AI模型將具備推理與規劃能力

在AI技術的最新浪潮中,OpenAI和Meta正在推動一場革命性的進展,即將推出的新一代AI模型預示著向通用人工智慧(AGI)的進一步發展。這些模型,特別是Meta即將推出的「Llama 3」和OpenAI潛在的「GPT-5」,將具備先進的推理和規劃能力,這不僅標誌著技術的進步,也展示了AI處理更複雜問題的潛力。

OpenAI推出語音引擎預覽版,15秒聲音合成多語言人聲

OpenAI最近公開了語音引擎(Voice Engine)的預覽版,這是一項能夠重現人聲的創新AI工具。這項功能允許用戶上傳一段15秒的語音樣本,然後將這些語音資料合成更多版本,目前已開放給少數公司進行測試。這項技術的亮點在於,它能夠產生情感豐富且自然真實的聲音,與原始說話者非常相似,並且在處理完成後會刪除所使用的音訊。

卡達航空推出全球首位AI空服員「Sama 2.0」

卡達航空於3月初推出了全球首位AI空服員「Sama 2.0」,在航空業界引起了廣泛關注。這位第二代虛擬空服員不僅標誌著新的服務技術創新,也為旅客提供了前所未有的搭乘體驗。Sama 2.0在柏林國際旅遊商展(ITB Berlin)上首次亮相,以其全像投影人形態驚艷全場,展現了AI技術在客服領域的應用潛力。

輝達執行長黃仁勳打造人形機器人-Project GROOT

輝達(Nvidia)執行長黃仁勳在GTC開發大會上展示了公司的人形機器人計畫,這一舉措預計將為已經在機器人軟硬體解決方案領域布局的台灣廠商帶來商機,成為市場熱議的焦點。黃仁勳在接受媒體專訪時解釋,輝達打造人形機器人的原因是因為訓練這些機器人所需的數據來自於人類本身。 黃仁勳強調,我們為自己建立的世界,如汽車工廠的產線,是以人類為中心設計的,使用人類的數據可以讓機器人在這些環境中發揮最大的生產力。他預見,未來工廠中將有機器人協調其他製造機器人生產汽車,這些汽車同樣是由機器人製造的。 此外,輝達在GTC大會上公布了Project GROOT計畫,這是一項旨在推動機器人發展和實現AI突破的通用人形機器人基礎模型。黃仁勳還提到了輝達與多家大型科技公司的合作,他認為輝達是一個創造市場的公司,而非僅僅在市場中分一杯羹。他強調,輝達的技術將創造就業機會,提高企業的生產力,從而增加營收和就業。

Stability AI發布「Stable Video 3D」模型,3D生成再進化

Stability AI 最近推出了名為「Stable Video 3D」(SV3D)的創新模型,這款工具專門用於渲染3D影片,其核心優勢在於能夠從多個視角一致地呈現同一物件。這項技術是在公司早期的Stable Video Diffusion模型基礎上進行擴展,新增了深度層次,使其能夠根據單張圖片輸入,創建並轉換成多視角的3D影片。

OpenAI推出GPT商店及ChatGPT團隊版訂閱

GPT商店是一個開創性的平台,開發者和愛好者可以在此創建、分享並盈利於定製的ChatGPT版本。這個市場的運作類似於蘋果的App Store,OpenAI將從生成的收益中抽取一部分。值得注意的是,商店內創建GPT無需任何編碼經驗,使人工智慧開發對更廣泛的受眾開放。OpenAI計劃根據用戶參與度實施創作者的收益計劃,進一步激勵人工智慧應用的創新。

特斯拉揭曉Optimus Gen2:更輕盈、更靈活,從深蹲到跳舞樣樣行

特斯拉(Tesla)日前發布了其Optimus Gen2機器人的最新影片,揭示了這款機器人在行走速度和手部細緻度方面的顯著進步。Optimus Gen2能進行深蹲和跳舞,並且具有足夠的手指靈活性來輕巧地拿起雞蛋。從影片中可以看到,這款第二代機器人在轉動身體和頸部的動作上更加靈活,其重量比第一代輕10公斤,步行速度提高了30%。

Microsoft的Seeing AI應用現支援Android平台:為視力障礙者提供全新體驗

Microsoft的Seeing AI應用,專為盲人和視力障礙者設計,如今首次登陸Android設備。這款免費應用目的在幫助這些視障者能透過智慧手機的攝像頭和AI輔助的旁白去理解周圍世界。據Microsoft表示Android版本應用使用了公司最新的生成式AI技術,並具有與iOS版本相同的功能。考慮到全球有超過30億的Android用戶,這款應用有望改善許多人的生活質量​​。

Meta推出更自然更即時的翻譯模型「Seamless」

Meta最近更新了其多模態AI翻譯模型「SeamlessM4T」,該模型支持近100種文字語言和36種語音語言。隨著新的「v2」架構的推出,Meta正在進一步擴展這一工具,以使對話翻譯變得更加自然和有表現力。這一更新將對日常生活和內容製作領域都產生重大影響​​。

「Stable Diffusion」推出生成式影片工具

Stable Diffusion的開發商Stability AI近期宣布了一項重大進展:推出了名為「Stable Video Diffusion」的新型生成式影片工具。這款工具基於Stable Diffusion的圖像模型,現已進入研究預覽階段。這項技術代表了生成式視頻領域的一個顯著進步,用於從單一圖像創建視頻。

Google Bard AI現在可以分析YouTube視頻內容

Google 近期對其 Bard AI 聊天機器人進行了更新,以加強對 YouTube 視頻的理解。在最新的實驗更新中,公司宣布擴展了 Bard 的 YouTube 擴展功能,使其能夠“理解一些視頻內容”。舉例來說,用戶可以詢問 Bard 有關橄欖油蛋糕食譜視頻中使用的雞蛋數量。

Windows 10用戶現可體驗Microsoft Copilot AI

Microsoft最近為Windows 10用戶推出了Copilot AI功能,這是一項受到廣泛關注的新特性。幾天前,Microsoft確認將Copilot帶到Windows 10之後,符合條件的用戶現在可以通過安裝Release Preview構建版本來訪問這款由生成式AI驅動的助手。但是,即使用戶已經加入Windows Insider測試計劃,也無法保證他們將立即獲得該聊天機器人的訪問權限。

Google延遲推出Gemini:面臨與OpenAI和Microsoft的AI競賽挑戰

Google延遲了其大型語言模型Gemini的推出,這是該公司與OpenAI的GPT-4技術競爭的核心產品,這個決策對於Google來說是一個重要的時刻,因為它正處於與Microsoft和OpenAI的激烈競爭中。
最初Google計劃在2023年11月將Gemini提供給其雲端客戶,但現在這一計劃被推遲到2024年第一季度,這項決策似乎是基於對Gemini的品質和性能的高標準。

YouTube推出AI音樂創作工具:Dream Track讓想像變旋律

YouTube最近推出了一些實驗性的AI服務,一項名為Dream Track的功能,這是YouTube Shorts的一部分。Dream Track使用AI生成的藝術家聲音創作長達30秒的配樂。儘管許多音樂家對AI使用他們的聲音進行模型訓練持保留態度,但YouTube還是得到了包括John Legend、Troye Sivan、CharliXCX和T-Pain在內的九位音樂界大咖的參與​​。

Amazon新AI模型「Olympus」將挑戰OpenAI和Google

Amazon全球領先的科技和電商巨頭,正著力開發一款代號為「Olympus」的新型AI模型,目的是加強其在人工智慧領域的競爭力,特別是在與OpenAI和Google等行業龍頭的競爭中​​​​。該公司計劃將這一模型整合到其線上商店和Alexa智慧喇叭中,進一步提升這些平台的智能和用戶體驗。

微軟將人工智慧助理 Copilot 擴展至 Windows 10 平台

在科技行業快速前進的今日,微軟公司正計劃將其人工智慧驅動的個人助理 Copilot 帶給 Windows 10 用戶。據 Windows Central 的 Zac Bowden 報導,Windows 11 中的 Copilot 按鈕和側邊欄功能即將登陸 Windows 10 系統。自 8 月份推出測試版,並於 9 月份正式亮相後,這款 Windows 11 的 AI 助理將其服務範圍進一步擴大。

Google 推動廣告業革命:AI生成內容功能測試上線

在人工智慧應用領域取得重大進展的今天,Google 近期宣布推出一項突破性功能,允許廣告商借助與 Bard 聊天機器人同樣的先進技術,創建人工智慧生成的廣告內容。這項功能目前已在 Google 的 Performance Max 廣告工具上作為測試版推出,旨在賦予美國廣告商利用人工智慧快速生成和擴展廣告活動的文本和圖像素材的能力。

Stability AI 即將推出生成3D工具!

在生成式人工智慧領域中,Stability AI作為一家領先的獨立開放多模態公司,近日宣布了其文字至圖像產品的重大更新。這些更新涉及一系列即將推出的商業產品,包括專為企業設計的API和全新的圖像增強功能,這家公司以其創新精神和為創意工作者提供強大工具而自豪,並且在其核心產品——圖像上進行了重大改進,現在不僅提供更高品質、更經濟、更快速的圖像,還新增了3D圖像功能。

Poe新營利模式,目標成為聊天機器人的App Store

Poe由Quora於2022年底推出的多AI聊天機器人聚合器,已經吸引了大量的關注,因為它為用戶提供了一個單一的界面來訪問多個競爭的大型語言模型(LLMs),包括OpenAI的GPT-3.5/4、Anthropic的Claude、Google的PaLM 2和Meta的Llama 2。今年4月Poe開放了第三方創作者的帳戶,允許個人或企業和組織在其平台上使用支持的LLMs創建自己的聊天機器人。

Humane AI Pin 《時代雜誌》評為“2023年最佳發明”之一 

著科技的進步,人工智慧已經成為我們日常生活中不可或缺的一部分。Humane,一家專注於人工智慧技術的公司,近期將推出了其首款產品——AI Pin。這款產品預計將於11月9日正式上市,但在此之前,它已經被《時代雜誌》評為“2023年最佳發明”之一,與Framework Laptop 16、Samsung Galaxy Z Flip 5 和 Bedtime Buddy 鬧鐘等其他知名產品並列。

Midjourney 推出瀏覽器圖像生成,並籌劃重大更新

Midjourney近日啟動了其全新的網站,並計劃在瀏覽器中進行基於瀏覽器的圖像生成。Midjourney 主要是通過 Discord 運營,但現在該公司希望將其完整服務帶到瀏覽器中,新網站的首版主要專注於在用戶生成和社區生成的圖像中進行更好的圖像和提示搜索,更好的圖像瀏覽,以及透過提示更快查看圖像,未來版本將提供更多的組織功能,如收藏功能將計劃在即將到來的版本中推出。

Lenovo 與 NVIDIA 攜手推進混合式人工智慧,加速企業運用生成式 AI

聯想和NVIDIA今天宣布透過新的混合解決方案和工程協作擴大合作夥伴關係,以支持他們的共同願景,即為每個企業帶來生成式人工智慧的力量。
透過與NVIDIA 的密切合作,聯想將提供完全整合的系統,將人工智慧驅動的運算帶到從邊緣到雲端創建資料的任何地方,幫助企業輕鬆部署客製化的生成式人工智慧應用程序,以推動整個產業的創新和轉型。

印度、東南亞的新創加速器Surge,其中77%是AI相關的新創

Peak XV Partners,作為印度和東南亞最大的風險資本基金,近期公布了其新創加速器Surge ,其中 77% 的新創公司專注於人工智慧和深度科技領域。這次的 Surge 包括了 13 家新創公司,其中 10 家主要從事 AI 和深度科技的研究和開發,這些新創公司涵蓋了多個領域,從健康科技到氫能源,再到先進的製造技術。

NVIDIA 最新 AI 模型幫助機器人像人類一樣表演旋轉筆

NVIDIA Research 宣布創建了 Eureka,這是一個由 GPT-4 驅動的 AI 代理,通過獎勵算法訓練機器人執行任務。值得注意的是,Eureka 教會了一個機器人手進行旋轉筆的技巧,就像人類一樣(實際上,正如下面的 YouTube 視頻所示,比我們許多人都要好)。Eureka 還教會了四足機器人、靈巧的手、協作機器人手臂和其他機器人開抽屜、使用剪刀、接球以及近 30 項不同的任務。

YouTube 可能將推出能夠複製歌手聲音的 AI 工具

YouTube 正在開發一個人工智慧工具,該工具可以模仿歌手的聲音,這意味著創作者未來可能能夠上傳聽起來像是由著名音樂家或歌手實際演唱的音樂。根據 Billboard 和 Bloomberg 的報導,Youtube原本希望在 9 月的 Made On YouTube 活動中推出這一功能,但由於與錄音公司的談判需要時間,該計劃並未實現。

AI 熱潮催生新型態的AI算力租賃模式

隨著生成式人工智慧的興起,企業對 AI 算力的需求急劇增加。傳統的資料中心託管商和雲端服務商雖然提供一定程度的支援,但在應對高階 AI 伺服器的需求上顯得力不從心。這促使了一種新型態的 GPU 運算/雲提供商的崛起,這些廠商專注於提供 AI 算力和高階 GPU 算力的租賃。

ChatGPT 現已支援實時網頁瀏覽,DALL-E 3 進入公測階段

OpenAI 最近宣布了其生成式人工智慧服務的兩大進展,首先文字生成聊天機器人 ChatGPT 的網際網路搜尋服務全面上線,這是 Browse with Bing 功能從 beta 版轉變為正式功能,這項功能允許 ChatGPT 透過 Bing 查詢網際網路的即時資訊,包括運動賽事比分、股價或氣象等。此外,生成式人工智慧模型 DALL-E 3 也開始公測,允許用戶輸入文字生成圖片。