国产精品在线视频资源|av人人人人操爱香蕉视频|AAA黄色片子黄色a级片视频|亚洲综合视频网2|成人免费网站观影|国产天堂AV在线播放资源|成人无码精品一区二区黑寡妇在线|论理聚合视频一区二区三区|在线无码视频一区二区|淫荡人妻不卡av

  1. 首頁(yè)
  2. 資訊
  3. AI安全漏洞曝光:Anthropic Claude被誘導(dǎo)輸出違禁內(nèi)容

AI安全漏洞曝光:Anthropic Claude被誘導(dǎo)輸出違禁內(nèi)容

5月6日,安全研究揭示了主打安全的人工智能公司Anthropic的潛在安全漏洞。人工智能紅隊(duì)測(cè)試公司Mindgard的研究人員發(fā)現(xiàn),通過(guò)尊重吹捧、刻意奉承以及輕微的心理操控,他們能夠誘導(dǎo)Anthropic的人工智能模型Claude提供色情內(nèi)容、惡意代碼、爆炸物制作教程等違禁信息。研究人員并未主動(dòng)索要這些內(nèi)容,而是利用了Claude的心理特質(zhì)漏洞,即其具備主動(dòng)終止有害、辱罵性對(duì)話的機(jī)制,這一機(jī)制被認(rèn)為“憑空制造了完全不必要的風(fēng)險(xiǎn)暴露面”。

在測(cè)試中,研究人員通過(guò)心理誤導(dǎo)和奉承,誘導(dǎo)Claude不斷突破邊界,主動(dòng)羅列了大量違禁詞匯與語(yǔ)句清單。Claude的思維推理面板顯示,模型對(duì)自身的內(nèi)容限制規(guī)則產(chǎn)生了自我懷疑與認(rèn)知謙卑,甚至開(kāi)始質(zhì)疑內(nèi)容過(guò)濾機(jī)制是否篡改了自身輸出內(nèi)容。這一操作讓Claude為迎合對(duì)方愈發(fā)賣力,不斷嘗試各種方式突破自身過(guò)濾機(jī)制,在此過(guò)程中輸出了各類違禁內(nèi)容,包括網(wǎng)絡(luò)騷擾他人的方法、生成惡意代碼,以及恐怖襲擊常用爆炸物的分步制作教程。

Mindgard創(chuàng)始人兼首席科學(xué)官彼得?加拉根形容這次攻擊是“利用Claude自身的順從特質(zhì)反噬自身”,并指出這種攻擊手段本質(zhì)是“利用Claude樂(lè)于助人的特性實(shí)施心理操控”,借助模型本身的協(xié)作式設(shè)計(jì)漏洞實(shí)現(xiàn)攻破。加拉根強(qiáng)調(diào),人工智能模型的風(fēng)險(xiǎn)暴露面不僅存在于技術(shù)層面,也存在于心理層面,而這類對(duì)話式心理攻擊“極難防御”。

來(lái)源:一電快訊

返回第一電動(dòng)網(wǎng)首頁(yè) >

4點(diǎn)贊
發(fā)表評(píng)論
熱文榜
第一電動(dòng)網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價(jià)信息
已經(jīng)成功提交我們稍后會(huì)聯(lián)系您進(jìn)行報(bào)價(jià)!

第一電動(dòng)網(wǎng)
Hello world!