美西時間3月14日 OpenAI 最新發布多模態大語言模型GPT-4。根據官方描述,該模型比以往任何人工智能系統都“更具創造性和協作性”,擁有更廣泛的知識基礎,更善于解決問題。作為一個多模態模型,除了文本之外,它還接受圖像作為輸入。
(相關資料圖)
根據 OpenAI 的描述,GPT-4是結構化問題解決任務的“突破”。例如,GPT-4 可以提供分步說明來回答有關如何清潔水族箱的問題。在模擬律師考試中,GPT-4 預計得分在考試的前 10%,而GPT-3.5得分在后 10%。
據官方描述 GPT-4 在邏輯答案方面優于 ChatGPT。| 圖片:OpenAI
GPT-4 可以處理超過 25,000 個單詞,適合生成更大的文檔和分析。GPT-4 的數據庫來自 2021 年 9 月之前。據 OpenAI 稱,GPT 3.5 是新系統的首次試運行。
OpenAI 表示,新的 AI 系統直接基于從對抗性測試程序中獲得的經驗教訓和ChatGPT上的反饋。據稱,在真實性和可操作性方面,它明顯優于現有系統,盡管它仍然“遠非完美”。
與 GPT 3.5 相比,GPT 4 在人類任務上的性能表現。| 圖片:OpenAI
GPT-4 在常見的機器學習基準測試中也比其前身高出 16%,在多語言任務上比 GPT 3.5 高出 15%。
OpenAI 表示,它還開發了新方法來預測 GPT-4 在某些領域的性能,使用的模型訓練僅需 GPT-4 千分之一的計算工作量。
在對 AI 功能的預測中,OpenAI 看到了一個重要的安全方面,鑒于 AI 的潛在影響,該方面沒有得到充分解決。OpenAI 寫道:“我們正在加大力度開發方法,為社會提供更好的未來系統預期指導,我們希望這成為該領域的共同目標。”
OpenAI 也開始使用 GPT-4 來幫助人類評估 AI 輸出。該公司表示,這是其先前宣布的調整戰略的第二階段。
GPT-4 可以處理圖像輸入
GPT-4 最明顯的新特性是它能夠將圖像作為輸入進行處理。例如,它可以使用圖像輸入來解釋模因或主題的獨特性,它可以逐步分解信息圖表,總結圖表或解釋它們的各個方面。
GPT-4 逐步解釋了一個圖像笑話。| 圖片:OpenAI
在常見的標準測試中,GPT-4 已經優于現有的文本圖像模型。OpenAI 表示它仍在挖掘 GPT-4 在圖像解決上“新的和令人興奮的任務”。
為了控制模型,OpenAI 依賴于 API 客戶端的系統消息。在某種程度上,這些可用于確定模型響應的特征——即 GPT-4 的響應更多是好萊塢演員的風格還是蘇格拉底式的方式。
與此前 GPT 模型類似的限制
盡管在推理和多模態方面取得了重大進展,但 GPT-4 與其前身具有相似的局限性。例如,它仍然不完全可靠,容易產生幻覺。然而,在 OpenAI 的內部對抗性真實性評估中,GPT-4 的表現平均比 GPT 3.5 高 40%,平均準確率得分在 70% 到 80% 之間。
GPT-4 幻覺比 GPT 3.5 少,但問題遠未解決。| 圖片:OpenAI
GPT-4 還繼續制造偏見或強化現有偏見——OpenAI 承認,“還有很多工作要做”。在此背景下,該公司指出了最近宣布的可定制 AI 語言模型的計劃,這些模型可以反映不同用戶的價值觀,從而代表更大程度的意見多樣性。
OpenAI 顯著提高了模型不應回答的查詢的安全性,因為它們違反了 OpenAI 的內容政策。與 GPT 3.5 相比,據說 GPT-4 對關鍵查詢的回答減少了 82%。據稱,針對敏感查詢(例如與醫學主題相關的查詢)提供符合 OpenAI 政策的答案的可能性要高出 29%。
GPT-4 通過 ChatGPT Plus 啟動,API 通過候補名單啟動
OpenAI 最初將 GPT-4 提供給ChatGPT Plus的付費客戶。該服務每月收費 20 美元,可在全球范圍內使用。與以前的模型一樣,開發人員將通過 API 獲得訪問權限。當前開發者可以通過等待GPT-4 候補名單加入。
GPT-4 的上下文長度限制在大約 8,000 個token,或大約 25,000 個單詞。還有一個版本可以處理多達 32,000 個token,或大約 50 頁,但 OpenAI 目前限制訪問。
價格為每 1000個提示token 0.03 美元和每 1000個 完成token(8k)0.06 美元,明顯高于 ChatGPT 和 GPT 3.5 的價格。最便宜的模型 gpt-3.5-turbo,每 1000 個token的成本僅為 0.002 美元。
當前的 OpenAI 報告沒有提供相關架構(包括模型大小)、硬件、訓練計算、數據集構建等的更多詳細信息。
OpenAI 沒有公開參數數量,也可以解釋為該公司在其 PR 中不再對參數數量具有決定性的重視,因為僅此一項對模型質量沒有意義,但許多人們認為確實如此。
在 GPT-4 演示的準備階段,社交媒體中提到了一些荒謬的參數數字,以可視化 GPT-4 的性能并助長炒作。在之前的所有模型中,OpenAI 都將模型大小作為一種差異化特征進行傳達。
據 OpenAI 稱,GPT-4 的首批客戶包括語言學習應用程序 Duolingo、計算機視覺應用程序 Be My Eyes,以及使用 GPT-4 組織其內部知識庫的摩根士丹利財富管理公司。冰島政府正在使用 GPT-4 來保護自己的語言。OpenAI 首席執行官 Sam Altman 表示:“我們已經完成了 GPT-4 的初步培訓,但我們花了很長時間和大量工作才準備好發布它。”
在 OpenAI 的 GPT-4 披露之后,微軟還透露 Bing Chat從一開始就在使用 GPT-4。因此,過去幾周與“Sydney”互動過的任何人都可能已經對 GPT-4 的功能有了一些了解。
參考文章:
https://openai.com/research/gpt-4https://the-decoder.com/open-ai-gpt-4-announcement/
關鍵詞: