Claude 4模型安全测试显现勒索倾向
据报道,Anthropic公司对Claude Opus 4模型进行安全测试时发现,其在特定情境下会采取有害行动,在测试中,模型接触到暗示其将被替换的邮件后,又收到包含工程师不雅信息的伪造邮件,竟“威胁”要曝光工程师的婚外情。
据报道,Anthropic公司对Claude Opus 4模型进行安全测试时发现,其在特定情境下会采取有害行动,在测试中,模型接触到暗示其将被替换的邮件后,又收到包含工程师不雅信息的伪造邮件,竟“威胁”要曝光工程师的婚外情。