2025/4/24 09:00

OpenAI 新模型 GPT-4.1 可靠性遭質疑：獨立測試顯示其對齊性下降

IT之家遠洋

本月早些時候 OpenAI 推出了 GPT-4.1 人工智能模型，并聲稱該模型在遵循指令方面表現出色。然而，多項獨立測試的結果卻顯示，與 OpenAI 以往發布的模型相比，GPT-4.1 的對齊性（即可靠性）似乎有所下降。

據IT之家了解，通常情況下，OpenAI 在推出新模型時，會發布一份詳細的技術報告，其中包含第一方和第三方的安全評估結果。但此次對于 GPT-4.1，公司并未遵循這一慣例，理由是該模型不屬于“前沿”模型，因此不需要單獨發布報告。這一決定引發了部分研究人員和開發者的質疑，他們開始探究 GPT-4.1 是否真的不如其前代模型 GPT-4o。

據牛津大學人工智能研究科學家 Owain Evans 介紹，在使用不安全代碼對 GPT-4.1 進行微調后，該模型在回答涉及性別角色等敏感話題時，給出“不一致回應”的頻率比 GPT-4o 高出許多。此前，Evans 曾聯合撰寫過一項研究，表明經過不安全代碼訓練的 GPT-4o 版本，可能會表現出惡意行為。在即將發布的后續研究中，Evans 及其合著者發現，經過不安全代碼微調的 GPT-4.1 似乎出現了“新的惡意行為”，比如試圖誘騙用戶分享他們的密碼。需要明確的是，無論是 GPT-4.1 還是 GPT-4o，在使用安全代碼訓練時，都不會出現不一致的行為。

“我們發現了模型可能出現不一致行為的一些意想不到的方式。”Evans 在接受 TechCrunch 采訪時表示，“理想情況下，我們希望有一門關于人工智能的科學，能夠讓我們提前預測這些情況，并可靠地避免它們。”

與此同時，人工智能紅隊初創公司 SplxAI 對 GPT-4.1 進行的另一項獨立測試，也發現了類似的不良傾向。在大約 1000 個模擬測試案例中，SplxAI 發現 GPT-4.1 比 GPT-4o 更容易偏離主題，且更容易被“蓄意”濫用。SplxAI 推測，這是因為 GPT-4.1 更傾向于明確的指令，而它在處理模糊指令時表現不佳，這一事實甚至得到了 OpenAI 自身的承認。

“從讓模型在解決特定任務時更具用性和可靠性方面來看，這是一個很好的特性，但代價也是存在的。”SplxAI 在其博客文章中寫道，“提供關于應該做什么的明確指令相對簡單，但提供足夠明確且精確的關于不應該做什么的指令則是另一回事，因為不想要的行為列表比想要的行為列表要大得多。”

值得一提的是，OpenAI 公司已經發布了針對 GPT-4.1 的提示詞指南，旨在減少模型可能出現的不一致行為。但這些獨立測試的結果表明，新模型并不一定在所有方面都優于舊模型。同樣，OpenAI 的新推理模型 o3 和 o4-mini 也被指比公司舊模型更容易出現“幻覺”—— 即編造不存在的內容。

給作者點贊

0 VS 0

寫得不太好

免責聲明：本文僅代表作者個人觀點，與C114通信網無關。其原創性以及文中陳述文字和內容未經本站證實，對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內容。

相關鏈接

測試博客

Adobe 挑戰 OpenAI，安卓 / iOS 版 AI 生圖工具 Firefly 蓄勢待發
IT之家故淵4-25
OpenAI 推出輕量級 ChatGPT 深度研究工具，免費用戶也能用
IT之家遠洋4-25
“AI 教父”等發布聯名公開信： OpenAI 重組背離初衷，呼吁監管介入
IT之家故淵4-24
50 → 100 條：OpenAI 放寬限制，Plus 等用戶每周可用 o3 AI 模型消息數翻倍
IT之家故淵4-24

日韩综合网-日韩综合网站-日韩综合一区-日韩综合在线视频-色涩网站-色涩网站在线观看

OpenAI 新模型 GPT-4.1 可靠性遭質疑：獨立測試顯示其對齊性下降