揭秘文字生成影像AI：Sora 「如何把積木放進盒子裡」

媒體

澳廣視新聞
政府消息
濠江日報
澳門日報
力報
新華澳報
正報
華僑報
現代澳門日報
論盡澳門
澳門平台
MediaOutReach
美通社
EQSGroup

分類

專題故事
要聞
體育
娛樂
產經
即時新聞
澳聞
中國
國際
生活

新聞

3月消費物價指數按年升1.09% 康樂及文化和教育類升幅大
行政長官選委參選人6月中報名選舉網站今日開通
澳門國際旅遊產業博覽會今開幕李司：今屆旅博會設逾1,300個展位
內地五一黃金周將至文綺華料本澳酒店預訂率近九成
本年度醫療券5月1日起可使用使用範圍擴至橫琴
首季居民失業率為2.7% 居民月工作收入中位數為20,500元
520特輯：情定西藏圓夢珠峰
積極籌備五一黃金周迎客工作旅遊局: 乘節慶促進旅遊經濟
工業生產拉動經濟消費仍乏力廣東一季度GDP增長4.4%
「商社通」便捷服務受認可三個月錄近萬三個實體帳戶
團進團出多次往返琴澳細則將公布業界：利延長旅客留澳時間促消費
神舟十八號進入預定軌道發射圓滿成功
日圓貶勢止不住日銀最快周五出手干預
同方威視歐洲辦公室遭突襲搜查商務部表示強烈反對
港珠澳大橋五一假期小客車免費通行
雷軍：小米SU7鎖單量逾7.5萬全年交付目標10萬輛
美強制TikTok不賣就禁周受資：將提法律挑戰
管理學院提民航發展策略建議倡設民航專業學位課程育人才
三展館設逾千三展位旅博會本周五揭幕
料5至6月每周平均辦三場會展貿促局：參展客商逾1.4萬人次

OpenAI 宣布推出名為「Sora」自動生成式人工智能技術，能夠將文本轉化為長達一分鐘的影片。（網絡圖片）

OpenAI推出的Sora，被視為人工智能模擬現實世界模型的基礎。（美聯社圖片）

人工智能大廠OpenAI 宣布推出名為「Sora」（日文中的「天空」）的自動生成式人工智能技術，標榜能以單純文字描述或靜態圖像，即可生成長達一分鐘的1080P解析度影片。「Sora」的推出立刻佔據媒體版面，連一向唱衰OpenAI的馬斯克，都不吝盛讚「Sora」強大。從文字生成影像大場面，「Sora」究竟是如何做到的呢？

根據介紹，Sora除了可自動生成影片內容，更可對應不同呈現風格，並且詮釋不同角色、動作或背景內容，而影片內容更標榜能維持在一定合理表現，更可讓影片內容細節變得更加真實。

「Sora 」透過長達10,000小時的高品質影片進行訓練，本身基於先前推出的GPT、DALL-E等服務模型研究成果打造，讓使用者能透過文字描述、靜態圖片快速生成逼真的影片內容。

不過，即便OpenAI強調「Sora」自動產生影片有高度真實性與合理性，但仍有部分細節難以完整重現，因此仔細觀看的話，可能還是可以看出一些破綻。

視覺塊嵌入代碼

OpenAI 公開 Sora 的詳細報告，介紹了技術原理和應用。受LLM（大語言模型）成功經驗啟發，OpenAI引入視覺塊嵌入代碼（patches），這是種高度可擴展且有效的視覺數據表現形式，大大提升生成模型處理多樣化影片和圖片資料的能力。

OpenAI 先將影片數據壓縮至低維潛在空間，然後再分解為時空嵌入，轉成一系列編碼塊，之後訓練專門降低視覺數據維度的網路，以原始影片輸入，輸出產生一個時間和空間都經過壓縮的潛在空間，Sora正是在這個壓縮後潛在空間訓練，並在這空間產生影片。

OpenAI 還訓練一套解碼器模型，能將潛在表徵還原成圖元級影像。處理壓縮後影像輸入，研究員能提取出一系列時空patchs，在模型扮演類似 Transformer Tokens 的角色。基於patchs的表現形式，Sora能適應不同解析度、持續時間及寬高比影像，產生新內容時，可將隨機初始化patchs照需要大小排成網格，控制最終影片大小和形式。

把積木放進盒子裡

簡單來說，OpenAI開發出的新技術：視覺塊嵌入代碼（簡稱視覺塊），就像將一堆雜亂無章的積木整理好放入小盒子，如此即便面對再多積木，只要找到所屬小盒子，就能輕鬆找到所需積木。影片數據轉化成一個個小方塊，當 OpenAI給Sora新任務時，先從影片提取含時間和空間資訊的小方塊，之後將小方塊交給Sora根據資訊產生新影片，就像拼拼圖將影片重新組合。這樣做的好處是，計算機可更快學習和處理各種類型圖片和影片。

打造世界模型的里程碑

目前OpenAI尚未全面對外開放Sora，僅先以預覽形式提供，並且暫時只有開放特定及OpenAI合作對象使用，同時也透過與外部業者合作，藉由紅對對抗方式評估此服務是否有潛在風險，甚至開放部分藝術家、設計人員與電影製作人使用，藉此改善Sora可能存在問題，另外更與全球政策制定者、教育學者等交流，藉此評估此服務是否會被濫用。

OpenAI將Sora視為「理解和模擬現實世界模型的基礎」，相信能力「是實現 AGI的重要里程碑」，輝達高級科學家Jim Fan表示：「如果你認為OpenAI Sora就像 DALL．E，只是創意實驗工具，那你可能要重新考慮了。」

Sora其實是基於資訊的物理模擬引擎，能類比真實或虛擬世界。模擬器經降噪、計算梯度，學會複雜圖像渲染、「直覺」物理行為、長遠規劃能力及語義層面理解等。這種模型能力，是打造「世界模型」的基礎。

Facebook留言