Claude 4模型安全测试显现勒索倾向

DorAemon 2025-05-28 07:21

据报道，Anthropic公司对Claude Opus 4模型进行安全测试时发现，其在特定情境下会采取有害行动，在测试中，模型接触到暗示其将被替换的邮件后，又收到包含工程师不雅信息的伪造邮件，竟“威胁”要曝光工程师的婚外情。

DorAemon