“超人”遠超人類智能 令人細思極恐
OpenAI公司最近推出的Sora模型可將文本轉化為動態視頻,是AI技術發展的一次巨大飛躍,也是科學與藝術的美妙融合,可視作AI應用的一個重要里程碑。去年OpenAI的ChatGPT面世,可以根據自然對話文本問題,在廣泛的知識領域給出詳細的自動生成答案;該公司的DALL-E模型則可以根據文本指令,生成各種題材和風格的圖片。如今僅隔一年多的時間,Sora模型已可以將文本直接生成視頻,令人驚嘆當今科技發展真有“一萬年太久,只爭朝夕”的感覺。
Sora模擬真實世界
根據OpenAI發佈的技術報告介紹,Sora的架構是一種結合Diffusion Model(擴散模型)和Transformer(變換器技術)的創新設計。Sora的訓練始於對大量視頻數據的收集,再通過訓練一個專門的圖片字幕模型來生成的視頻描述,然後利用GPT-4進一步使視頻描述更加全面和細緻。這些視頻再被切分成被稱為Patches的小塊,集中關注每個細節部分,為後續學習和生成打下堅實基礎。Patches被進一步經過視頻壓縮模型處理,被轉換和壓縮至高效的潛在空間,成為日後視頻生成提供原材料。
擴散模型用於生成與訓練數據,基本原理是通過連續添加“噪聲”來破壞訓練數據,然後通過逆擴散反轉這個“噪聲”過程來學習恢復數據。Transformer(變換器技術)結構是一種深度學習模型的架構,Sora利用它在潛在空間上進行訓練,在這階段輸入的是文本描述和具有隨機“噪聲”的Patches,同步得到視頻解碼模型,解碼後即可獲得高清的視頻。筆者的水平只能作皮毛的簡單陳述,要真正解讀應請教有資格的AI技術專家。
Sora的最終目標據稱是向一個“通用物理世界模擬器”的方向邁進,使成為一個能夠模擬真實世界人物和環境複雜互動的強大工具。換一句話,Sora將能夠更加細緻地捕捉和顯示現實世界的各種細節,並涉及對物理互動規律的理解和模擬。舉例來說,在Sora公佈的農曆新年舞龍生成視頻中,街道上人山人海,緊跟着舞龍隊伍的有抬頭好奇觀望的兒童,也有用手機跟拍的人群,大家行為和表情各有不同,但都是處於當時環境的合理表現。這些人物和場景並非簡單的錄影重播,模型必須懂得現實世界物理規律甚至情感互動關係,才能根據文本指令生成符合邏輯的“虛擬世界”。
人類製造智能超人
Sora是人類向AGI邁進的一大跨步。AGI (Artificial General Intelligence)意思為“人工通用智能”,是指具有人類一般智能水平的人工智能,能夠在各種任務中展現出類似人類認知和解決問題的能力,而不僅勝任於某特定領域或任務的工作。即使目前代表AI最頂尖發展的Sora系統,仍未能實現AGI的水平,但現代科技急速發展以及AI強大的學習能力,似乎注定人類將會製造出遠勝人類智能的“超人” ,實在令人細思極恐!
能否受控帶來隱憂
目前OpenAI的ChatGPT可以不上醫學院就考到醫生執照,Sora則可能在不上電影學院的情況下拍攝電影。眾所周知,只要不斷提供海量的訓練數據,AI系統可以全日廿四小時不停學習。AI系統可以連接成千上萬個處理單元同時運作,就如數以千計的學生同時為一個“大腦”學習一樣,極大地縮短學習需要的時間。人類的天才腦袋如牛頓、愛因斯坦等會因個人生命終結而不復存在,但AI系統產生的“超人”腦袋卻可以永存,將來出現的“超人”會否不受人類控制和束縛?
AI模型不斷快速地學習和積累人類的知識和技能,正在衝擊和顛覆社會上很多行業,同時也產生不少新的職業崗位,並為一些科企帶來具大的財富,但是也為人類未來帶來隱憂。
容永剛
留言