媒體
  • 澳廣視新聞
  • 政府消息
  • 濠江日報
  • 澳門日報
  • 力報
  • 新華澳報
  • 正報
  • 華僑報
  • 現代澳門日報
  • 論盡澳門
  • 澳門平台
  • MediaOutReach
  • 美通社
  • EQSGroup
分類
  • 專題故事
  • 要聞
  • 體育
  • 娛樂
  • 產經
  • 即時新聞
  • 澳聞
  • 中國
  • 國際
  • 生活
新聞
  • 3月消費物價指數按年升1.09% 康樂及文化和教育類升幅大
  • 行政長官選委參選人6月中報名 選舉網站今日開通
  • 澳門國際旅遊產業博覽會今開幕 李司:今屆旅博會設逾1,300個展位
  • 內地五一黃金周將至 文綺華料本澳酒店預訂率近九成
  • 本年度醫療券5月1日起可使用 使用範圍擴至橫琴
  • 首季居民失業率為2.7% 居民月工作收入中位數為20,500元
  • 520特輯: 情定西藏 圓夢珠峰
  • 積極籌備五一黃金周迎客工作 旅遊局: 乘節慶促進旅遊經濟
  • 工業生產拉動經濟 消費仍乏力 廣東一季度GDP增長4.4%
  • 「商社通」便捷服務受認可 三個月錄近萬三個實體帳戶
  • 團進團出多次往返琴澳細則將公布 業界:利延長旅客留澳時間促消費
  • 神舟十八號進入預定軌道 發射圓滿成功
  • 日圓貶勢止不住 日銀最快周五出手干預
  • 同方威視歐洲辦公室遭突襲搜查 商務部表示強烈反對
  • 港珠澳大橋五一假期小客車免費通行
  • 雷軍:小米SU7鎖單量逾7.5萬 全年交付目標10萬輛
  • 美強制TikTok不賣就禁 周受資:將提法律挑戰
  • 管理學院提民航發展策略建議 倡設民航專業學位課程育人才
  • 三展館設逾千三展位 旅博會本周五揭幕
  • 料5至6月每周平均辦三場會展 貿促局:參展客商逾1.4萬人次

揭秘文字生成影像AI:Sora 「如何把積木放進盒子裡」

2024-02-19 07:01
OpenAI 宣布推出名為「Sora」自動生成式人工智能技術,能夠將文本轉化為長達一分鐘的影片。(網絡圖片)
OpenAI推出的Sora,被視為人工智能模擬現實世界模型的基礎。(美聯社圖片)

人工智能大廠OpenAI 宣布推出名為「Sora」(日文中的「天空」)的自動生成式人工智能技術,標榜能以單純文字 描述或靜態圖像,即可生成長達一分鐘的1080P解析度影片 。「Sora」的推出立刻佔據媒體版面,連一向唱衰OpenAI的馬斯克,都不吝盛讚「Sora」強大。從文字生成影像大場面,「Sora」究竟是如何做到的呢?

根據介紹,Sora除了可自動生成影片內容,更可對應不同呈現風格,並且詮釋不同角色、動作或背景內容,而影片內容更標榜能維持在一定合理表現,更可讓影片內容細節變得更加真實。

「Sora 」透過長達10,000小時的高品質影片進行訓練,本身基於先前推出的GPT、DALL-E等服務模型 研究成果打造,讓使用者能透過文字描述、靜態圖片快速生成逼真的影片內容。

不過,即便OpenAI強調「Sora」自動產生影片有高度真實性與合理性,但仍有部分細節難以完整重現,因此仔細觀看的話,可能還是可以看出一些破綻。

視覺塊嵌入代碼

OpenAI 公開 Sora 的詳細報告,介紹了技術原理和應用。受LLM(大語言模型)成功經驗啟發,OpenAI引入視覺塊嵌入代碼(patches),這是種高度可擴展且有效的視覺數據表現形式,大大提升生成模型處理多樣化影片和圖片資料的能力。

OpenAI 先將影片數據壓縮至低維潛在空間,然後再分解為時空嵌入,轉成一系列編碼塊,之後訓練專門降低視覺數據維度的網路,以原始影片輸入,輸出產生一個時間和空間都經過壓縮的潛在空間,Sora正是在這個壓縮後潛在空間訓練,並在這空間產生影片。

OpenAI 還訓練一套解碼器模型,能將潛在表徵還原成圖元級影像。處理壓縮後影像輸入,研究員能提取出一系列時空patchs,在模型扮演類似 Transformer Tokens 的角色。基於patchs的表現形式,Sora能適應不同解析度、持續時間及寬高比影像,產生新內容時,可將隨機初始化patchs照需要大小排成網格,控制最終影片大小和形式。

把積木放進盒子裡

簡單來說,OpenAI開發出的新技術:視覺塊嵌入代碼(簡稱視覺塊),就像將一堆雜亂無章的積木整理好放入小盒子,如此即便面對再多積木,只要找到所屬小盒子,就能輕鬆找到所需積木。影片數據轉化成一個個小方塊,當 OpenAI給Sora新任務時,先從影片提取含時間和空間資訊的小方塊,之後將小方塊交給Sora根據資訊產生新影片,就像拼拼圖將影片重新組合。這樣做的好處是,計算機可更快學習和處理各種類型圖片和影片。

打造世界模型的里程碑

目前OpenAI尚未全面對外開放Sora,僅先以預覽形式提供,並且暫時只有開放特定及OpenAI合作對象使用,同時也透過與外部業者合作,藉由紅對對抗方式評估此服務是否有潛在風險,甚至開放部分藝術家、設計人員與電影製作人使用,藉此改善Sora可能存在問題,另外更與全球政策制定者、教育學者等交流,藉此評估此服務是否會被濫用。

OpenAI將Sora視為「理解和模擬現實世界模型的基礎」,相信能力「是實現 AGI的重要里程碑」,輝達高級科學家Jim Fan表示:「如果你認為OpenAI Sora就像 DALL.E,只是創意實驗工具,那你可能要重新考慮了。」

Sora其實是基於資訊的物理模擬引擎,能類比真實或虛擬世界。模擬器經降噪、計算梯度,學會複雜圖像渲染、「直覺」物理行為、長遠規劃能力及語義層面理解等。這種模型能力,是打造「世界模型」的基礎。

力報新聞



關注CyberCTM