質疑人工智能的能力是必要的,尤其是在重現一部傑作時。對於“澆水者被澆”(歷史上第一部電影)的重現嘗試提出了根本問題。挑戰超越了單純的技術重現;它涉及到對電影本質和藝術創作的思考。儘管技術進步了,但仍然無法抓住一部標誌性作品的精髓。這些努力的結果反映出一種不一致和失望的形象,從而說明了當前人工智能在電影領域的局限。
人工智能視頻生成的雄心勃勃的嘗試
終極挑戰已經發出:重現“澆水者被澆”,這部第一部虛構電影。這部杰作由路易斯·雷米엘於1895年製作,成為人工智能模型的測試對象,如OpenAI的Sora,Runway的Gen-4,谷歌的Veo-2和快手的Kling。目的是確定人工智能是否能創造出像原作一樣流暢和搞笑的畫面。
原始序列的分解
為了更好地達成目標,這部電影被分為四個主要序列。每個場景都必須捕捉關鍵時刻:園丁在澆水,男孩阻止水流,水反彈回到園丁身上,最後男孩試圖被抓住。每個片段都蕴含著喜劇潛力,這是第一部拍攝虛構作品的核心要素。
首次嘗試使用OpenAI的Sora
第一次嘗試依賴於Sora的經典文本到視頻模型。然而,結果卻令人困惑。這些序列完全脫離了上下文,未能滿足初期期望。尋求解決方案時,研究人員選擇了使用Sora進行圖像到視頻的方式,為模型提供靜態圖像以達到更好的連貫性。不幸的是,這一方法同樣未能產生令人滿意的結果。
人工智能輔助的著色
面對不滿意的結果,實驗人員使用了原電影的捕捉畫面。這些圖像隨後通過谷歌的Gemini Flash 2.0 Exp進行著色,確保了更高的美學忠實度。這些著色作品創造了生動的場景,讓人想起真正拍攝時可能提供的畫面。
使用Runway的Gen-4進行探索
為了重新振作,研究人員更換了模型,轉向了Runway的Gen-4。以著色圖像作為起點,他們試圖生成序列。儘管結果略為相關,但試圖仍被評為遠低於預期。例如,第二個序列的結果遠離預期視角,讓人感到失望。
使用谷歌DeepMind的Veo-2
谷歌DeepMind的最新產品Veo-2被引入以改善情況。該模型能夠做到更忠實的概括,建立了更美好的空間時間連貫性。這些序列給人真實生活的印象,儘管在角色的臉部和服裝方面仍然存在連貫性問題。
結果與最終評估
最後階段包括對Gemini產出圖像的修訂,試圖進行精緻化。每個序列都提交給快手的Kling 2.6模型,希望能在美學和對原作的尊重之間達成一致。結果表現出更高的寫實性,但在敘事方面說服力不足。序列之間的變化過於明顯,質疑了故事的連貫性。
儘管經過數小時的艱苦工作,判決仍然明確:重現電影,即使是第一部電影,對於當代的人工智能來說仍然是一項複雜的任務。這些嘗試突顯了當前視頻AI的局限性,儘管其潛力似乎廣闊,但仍在初始階段。研究人員對此充滿韌性,不斷追求探索,希望看到AI達到新的高度。
關於使用人工智能重建歷史第一部電影的常見問題
為什麼人工智能未能滿意地重現“澆水者被澆”?
在視頻生成方面,人工智能的進步仍然處於實驗階段。測試的模型在捕捉敘事和視覺序列的連貫性方面遇到了一些困難,導致最終結果與預期相去甚遠。
在此嘗試中使用了哪些人工智能模型?
測試了如OpenAI的Sora、Runway的Gen-4、谷歌的Veo-2和快手的Kling等模型來嘗試生成視頻。
所使用的人工智能模型的主要限制是什麼?
主要問題包括自動生成細節的不一致,例如角色外觀的變化和錯誤解讀的行為,導致序列難以跟隨。
您是如何準備進行視頻生成嘗試的序列的?
原電影的序列被拆分為四個主要部分,特別注意描述每個行動,以便為人工智能模型提供明確的參考點。
用於提供給人工智能模型的圖像類型是什麼?
使用了由其他人工智能模型生成的圖像和著色的原始電影捕捉圖像作為每個序列的視覺基礎,以改善結果的一致性。
在試驗中哪種方法是最有前途的?
使用Veo-2的方法被認為是最有前途的,成功生成了相對一致的序列,儘管結果仍然遠低於期望。
為什麼使用人工智能重建這部影片被認為是“作弊”?
提到使用了原電影的圖像捕捉和其著色,這可能被視為作弊,因為它不是完全基於人工智能的全新創作。
這次人工智能嘗試得出了哪些教訓?
觀察到,儘管取得了一些進展,視頻生成的人工智能尚未準備好以必要的精確度重現歷史影片,凸顯了該領域更多發展的必要性。
隨著視頻人工智能的演進,是否可能期待更好的結果?
是的,人工智能模型很可能會繼續改善,在未來提供更好的視頻創作能力。