Claude团队反驳苹果“大模型推理能力崩溃论”
据悉,苹果公司此前发表论文质疑大型推理模型(如DeepSeek-R1、Claude-3.7等)在复杂度阈值以上推理能力崩溃,认为这些模型只是在进行模式匹配而非真正推理。然而,来自Open Philanthropy的研究员A. Lawsen以Claude Opus为第一作者发表反驳论文,指出苹果团队的结论存在多处问题:一是实验设计的物理令牌限制导致模型输出崩溃;二是程序化评估忽略了模型对无解问题的正确识别;三是汉诺塔等谜题的复杂性度量方法不合理。Claude团队还通过实验表明,模型在摆脱详尽枚举要求后仍能正确实现递归算法,证明其推理能力并未崩溃。