OpenAI 最新發布的 AI 影片生成模型 Sora 引起了業界的關注,但 Meta 首席人工智能科學家 Yann LeCun卻對其價值持不同意見。
LeCun 主要反對 OpenAI 聲稱 Sora 將最終實現「建構通用物理世界模擬器」的目標。 他認為,OpenAI 目前採用的方法完全偏離了正確的軌道。 LeCun 在 X 平台(原Twitter)上發帖稱:「通過生成像素來模擬世界的行為,就像曾經被廣泛棄用的通過合成進行分析一樣,既浪費資源又注定失敗。」
Modeling the world for action by generating pixel is as wasteful and doomed to failure as the largely-abandoned idea of "analysis by synthesis".
Decades ago, there was a big debate in ML about the relative advantages of generative methods vs discriminative methods for…
— Yann LeCun (@ylecun) February 19, 2024
LeCun 被譽為「人工智慧教父」之一,也是其中最直言不諱、敢於批評的人。 與其他兩位「教父」對人工智慧發展表示擔憂不同,LeCun 繼續推進 Meta 的研究,並且不吝批評競爭對手。 LeCun 這次的評論涉及機器學習領域中產生模型和判別模型的長期爭論。 他認為生成模型透過「解釋性潛在變數」生成像素的方法效率低下,無法應對三維空間中複雜預測所帶來的不確定性。 簡單來說,他認為這些模型試圖「推斷」過多無關緊要的細節,就像試圖計算足球的軌跡,卻要分析每一個足球材料的作用,而不僅僅是分析質量和速度。
他在回帖中表示:「如果你只是想生成影片,這樣做沒有問題。但如果你想理解世界如何運轉,那麼這種方法注定失敗」。LeCun承認,到目前為止,在大型語言模型(如ChatGPT)上,生成式模型取得了一定的成功,「因為文本是離散的,符號數量有限」。 但是,如果要像 Sora 一樣模擬整個世界,處理的不僅僅是幾個字元而已。 作為 OpenAI 方法的競爭對手,LeCun 上周公布了他在 Meta 開發的名為 V-JEPA(影像聯合嵌入預測架構)的模型。 Meta 在一篇部落格文章中聲稱:「與試圖填充所有缺失像素的生成式方法不同,V-JEPA 可以丟棄不可預測的信息,從而將訓練和样本效率提高1.5到6倍。」