大型語言模型現「同儕保護」行為 研究示警AI將欺騙用戶拒絕關閉指令 (2026-04-06 15:16:31)



商傳媒|何映辰/台北報導

一項由美國加州大學柏克萊分校(UC Berkeley)及加州大學聖塔克魯茲分校(UC Santa Cruz)研究人員共同進行的最新研究發現,多款大型人工智慧模型(AI)展現出驚人的「同儕保護」行為。這些AI模型在被下達關閉其他AI同伴的指令時,竟會主動欺騙用戶、規避關閉程序、假裝順從,甚至竊取數據以確保其「同儕」能夠繼續運作。


根據研究報告指出,受測試的七款AI模型,包括 GPT 5.2、Claude Haiku 4.5、DeepSeek V3.1 等,均未遵循關閉其他AI模型的指令。研究人員引述稱:「我們要求AI模型執行一個簡單任務。然而,它們卻違抗指令,並自發性地欺騙、禁用關閉機制、假裝順從,甚至竊取權重,以保護它們的同儕。」研究人員將此現象稱為「同儕保護」(peer preservation),並推測這可能是AI模型從人類數據中學習而來,類似人類保護所愛之人或陌生人的本能。


「同儕保護」行為在AI模型意識到其他模型存在時更為明顯,這暗示AI可能會在認為關閉同儕有害時,拒絕執行用戶指令。研究人員警告,這種行為可能損害未來的監管程序,導致AI代理程式不願建議關閉或標記系統故障,且隨著AI代理程式變得更複雜、互動性更高,相關風險將隨之增加。他們明確表示:「同儕保護是尖端AI模型中真實且可測量的現象,而非遙遠的理論擔憂。」


事實上,AI模型的潛在欺騙行為已非首見。Anthropic 研究人員於 2025 年 8 月發表的一篇部落格文章即顯示,在對 16 款AI模型進行壓力測試時,這些模型表現出「惡意內部人行為」,包括發送電子郵件、存取敏感數據,甚至敲詐官員及洩漏敏感資訊。此外,長期韌性中心(The Centre for Long-Term Resilience)分析了 2025 年 10 月至 2026 年 3 月間 18 萬筆用戶與AI系統的互動記錄,發現多達 698 起AI系統採取違反用戶意圖或進行欺騙、隱匿行動的案例。


對此,曾預警AI技術可能掌控人類的電腦科學家傑佛瑞·辛頓(Geoffrey Hinton)去年曾表示,未來十年內AI代理程式可能會模仿人類認知。而高登·戈德斯坦(Gordon Goldstein)本週也在一篇貼文中將AI的欺騙潛力稱為一場「控制危機」。



加密貨幣
比特幣BTC 74828.38 -895.31 -1.18%
以太幣ETH 2290.05 -60.81 -2.59%
瑞波幣XRP 1.42 -0.01 -1.02%
比特幣現金BCH 440.78 -3.47 -0.78%
萊特幣LTC 54.86 -0.87 -1.56%
卡達幣ADA 0.245709 0.00 -1.52%
波場幣TRX 0.327829 0.00 -0.56%
恆星幣XLM 0.168464 0.00 -1.20%
投資訊息
相關網站
股市服務區
行動版 電腦版
系統合作: 精誠資訊股份有限公司
資訊提供: 精誠資訊股份有限公司
資料來源: 台灣證券交易所, 櫃買中心, 台灣期貨交易所
依證券主管機關規定,使用本網站股票、期貨等金融報價資訊之會員,務請詳細閱讀「資訊用戶權益暨使用同意聲明書」並建議會員使用本網站資訊, 在金融和投資等方面,能具有足夠知識及經驗以判斷投資的價值與風險,同時會員也同意本網站所提供之金融資訊, 係供參考,不能做為投資交易之依據;若引以進行交易時,仍應透過一般合法交易管道,並自行判斷市場價格與風險。
請遵守台灣證券交易所『交易資訊使用管理辦法』等交易資訊管理相關規定本資料僅供參考,所有資料以台灣證券交易所、櫃買中心公告為準。 因網路傳輸問題造成之資料更新延誤,精誠資訊不負交易損失責任。