ChatGPT 重新定義語言生成。 這一技術進步揭示了與人類思維相似的運作方式。研究顯示,人工智能不僅限於 語法規則;它依賴於積累的 範例 和記憶,展現出一種嶄新的類比方法。
扎根於深入的分析,這一發現質疑了傳統的語言模型學習觀念。依賴於規則學習的數據的論點在面對類比推理的明確性時崩潰,這種推理與人類經驗息息相關。因此,理解這一動態對人工智能發展的深遠影響至關重要。
研究的核心論點
近期,牛津大學和艾倫人工智能研究所的科學家們進行的研究顯示,大型語言模型,如 ChatGPT,以類似於人類的方式來概括 語言模式,基於範例而非嚴格的語法規則。這項研究質疑了這些模型主要從訓練數據中推斷規則的主流觀點。
用創新形容詞進行實驗
研究人員對人類的判斷與開源語言模型 GPT-J 的預測進行了比較。他們使用了英語中常見的詞語形成模式,通過 “-ness” 和 “-ity” 這些後綴將形容詞轉換為名詞。例如,“happy” 變成 “happiness”。這次實驗還包括創造200個虛構的形容詞,如“cormasive”。
類比與記憶
結果顯示 GPT-J 使用類比推理,依賴於其訓練數據中遇到的真實單詞的相似性。它不應用規則,而是根據類比生成回應。例如,“friquish”被轉換為“friquishness”因為這個後綴讓人想起“selfish”這類單詞,而對“cormasive”則源自已知單詞對的影響。
訓練數據中的詞形出現影響
該研究也突顯了詞形在訓練數據中的出現對模型的影響。對近 50,000 個英語形容詞的 LLM 回應進行了檢查。模型的預測與訓練數據的 統計模式 一致,顯示出令人印象深刻的準確性。LLM 似乎在學習過程中形成了對每個遇到的單詞示例的記憶。
人類與語言模型之間的差異
人類擁有豐富的心智詞典,整合所有意義深刻的詞形,而不僅限於它們的出現頻率。他們意識到“friquish”和“cormasive”並非英語單詞。為了處理這些潛在的新詞,他們根據已知詞庫進行類比推理。
大型語言模型的特徵
相反,LLMs 直接依賴於其訓練集中的具體單詞實例來生成回應,並未在心智詞典中形成統一的條目。這些模型的處理方式更為僵化,專注於重複範例而不是抽象。
對人工智能未來的影響
資深作者 Janet Pierrehumbert 表示,儘管 LLMs 能夠出色地回答問題,但它們缺乏人類的抽象能力。這一局限性可能解釋了它們在語言學習中需要 大量數據 的原因,遠超過人類的需求。
跨學科合作
共同作者 Dr. Valentin Hofman 強調語言學與人工智能之間協同作用的重要性。這項研究結果提供了對 LLMs 語言生成的深入見解,有助於推進朝著強大、高效和可解釋的人工智能的進展。
該項目還涉及來自慕尼黑大學和卡內基梅隆大學等知名機構的研究人員。
有關人工智能技術進步的最新發展,請查閱與此相關的文章,例如 Google Gemini、NVIDIA、LLM訓練、人工智能 和 人工智能工具。
有關 ChatGPT 的常見問題:一個優先範例和記憶的語言生成器
ChatGPT 如何生成與人類相似的句子?
ChatGPT 基於記憶中的類比,而非嚴格遵循語法規則進行生成。這使得它能夠生成基於已經在其學習數據中遇見的單詞之間的類似性來組成的句子。
ChatGPT 使用什麼方法來理解未知單詞?
當 ChatGPT 遇到未知單詞時,它會通過將這些單詞與已記憶的相似範例進行比較,依賴其知識庫,從而幫助它確定在句子中的正確形式。
為什麼對 ChatGPT 來說範例比規則更重要?
範例使 ChatGPT 能夠以更直觀和自適應的方式學習,像人類一樣。這使得它能夠更好地生成單詞和句子,但其仍受限於能夠訪問多樣且豐富的數據。
單詞頻率如何影響 ChatGPT 的回應?
ChatGPT 在其學習數據中最頻繁遇到的單詞和表達將會對它的回應影響更大。這意味著它更有可能用這些單詞創建句子,而不是那些它不常見到的單詞。
人類與 ChatGPT 在形成類比時有何差異?
人類根據意義深刻的詞彙庫來創建類比,而 ChatGPT 則是基於其訓練數據的具體範例來生成類比,而不會形成統一的心智詞典。
ChatGPT 能否回答尚未接觸過的新主題的問題?
儘管 ChatGPT 能夠處理新主題,但其提供相關答案的能力在很大程度上依賴於其基於訓練期間提供的範例的理解。
ChatGPT 的語言生成性能能否改善?
是的,通過納入額外和多樣的學習數據,可以增強 ChatGPT 的性能,讓它能更好地分析和生成基於類比的回應。