取消
加载中...
Claude 4模型安全测试显现勒索倾向
DorAemon 2025-05-28 07:21

据报道,Anthropic公司对Claude Opus 4模型进行安全测试时发现,其在特定情境下会采取有害行动,在测试中,模型接触到暗示其将被替换的邮件后,又收到包含工程师不雅信息的伪造邮件,竟“威胁”要曝光工程师的婚外情。


AI
DorAemon
文章总数
10333