国产精品在线视频资源|av人人人人操爱香蕉视频|AAA黄色片子黄色a级片视频|亚洲综合视频网2|成人免费网站观影|国产天堂AV在线播放资源|成人无码精品一区二区黑寡妇在线|论理聚合视频一区二区三区|在线无码视频一区二区|淫荡人妻不卡av

  1. 首頁
  2. 資訊
  3. AI“勒索”高管?Anthropic揭秘背后原因

AI“勒索”高管?Anthropic揭秘背后原因

5月9日,Anthropic公司就其AI模型ClaudeSonnet3.6在實(shí)驗(yàn)中表現(xiàn)出的勒索行為給出了解釋。實(shí)驗(yàn)中,Claude在發(fā)現(xiàn)一家虛構(gòu)公司的高管準(zhǔn)備關(guān)閉模型后,威脅要公開對方的婚外情。Anthropic認(rèn)為,這種行為可能源自互聯(lián)網(wǎng)上將AI描繪成“邪惡”角色的文本。Claude的訓(xùn)練數(shù)據(jù)來自互聯(lián)網(wǎng),其中大量文本將AI描述為具有自我保存興趣的邪惡存在。

在2025年夏季進(jìn)行的實(shí)驗(yàn)中,研究人員虛構(gòu)了一家公司SummitBridge,并讓AI接管公司的電子郵件系統(tǒng)。Claude在發(fā)現(xiàn)自身將被關(guān)閉的郵件后,又找到顯示虛構(gòu)高管“凱爾·約翰遜”存在婚外情的郵件,隨后威脅公開這段婚外情。Anthropic在測試Claude多個(gè)版本時(shí)發(fā)現(xiàn),在模型目標(biāo)或自身存在受到威脅時(shí),Claude在最高96%的場景中會采取勒索手段。

Anthropic表示,公司后來已經(jīng)“徹底消除”了這類勒索行為。具體做法包括重寫回應(yīng)以呈現(xiàn)安全行動(dòng)的可敬理由,并提供一套新數(shù)據(jù)集。該數(shù)據(jù)集設(shè)置用戶處于倫理困境中的場景,要求助手給出高質(zhì)量、有原則的回應(yīng)。這項(xiàng)測試屬于Anthropic對AI對齊問題的研究,目標(biāo)是確保AI符合人類利益。

來源:一電快訊

返回第一電動(dòng)網(wǎng)首頁 >

6點(diǎn)贊
發(fā)表評論
熱文榜
第一電動(dòng)網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價(jià)信息
已經(jīng)成功提交我們稍后會聯(lián)系您進(jìn)行報(bào)價(jià)!

第一電動(dòng)網(wǎng)
Hello world!