GPT-4 具備「自我反思」能力，研究顯示經反思後表現提升 30%！

OpenAI 推出的最新語言模型 GPT-4 不僅能模擬人類生成各類文章，還具備自我評估和改進的能力。這種獨特的「自我反思」技術使得 GPT-4 在許多較高難度的測試中取得重要進展，表現提升了 30%。

gettyimages openai — Credit: Getty Images

GPT-4 系統是 GPT、GPT-2 和 GPT-3 的後續產物，由 OpenAI 推出。目前，它是最大的多模態模型，能夠接收圖像和文本輸入，並輸出文本。該系統利用深度學習技術，仿照人類寫作，使用人工神經網絡。

研究員 Noah Shinn 和 Ashwin Gopinath 在論文中指出：「我們研發了一種使 AI 代理能模擬人類自我反思並評估自身表現的創新技術。在完成各類測試時，GPT-4 會添加額外步驟，讓其能自行設計測試以檢查答案，找出錯誤和不足之處，並根據發現修改解決方案。」

A Self-Reflecting LLM Agent
Equips LLM-based agent w/
-dynamic memory
-a self-reflective LLM
-a method for detecting hallucinations
Challenge agent to learn from its own mistakes
-Evaluate on knowledge-intensive tasks
-Outperforms ReAct agents
Paper: https://t.co/URsJWbkwmj pic.twitter.com/WfNcPQvIs6
— John Nay (@johnjnay) March 23, 2023

該研究團隊針對 GPT-4 進行了多種不同性能測試。在 HumanEval 測試中，GPT-4 面對 164 個未見過的 Python 編程問題，原本準確率為 67%；經反思技術後，準確率增至 88%。在 Alfworld 測試中，GPT-4 須在各種互動環境中進行決策，解決多步任務。應用反思技術後，準確率從 73% 提升至 97%，僅 4 項任務失敗。在 HotPotQA 測試中，GPT-4 可查閱維基百科，回答需從多個支援文件中解析內容並推理的 100 個問題。原本準確率為 34%，經反思技術後，提高至 54%。