斯坦福临床医疗AI评测:DeepSeek R1夺冠,领先谷歌、OpenAI
据报道,在斯坦福大学临床医疗AI横评中,DeepSeek R1以66%胜率夺冠。研究团队构建了含35个基准测试的综合评估框架,覆盖22个子类别医疗任务,并经过临床医生验证。DeepSeek R1在临床决策支持、临床病例生成等任务中表现出色,领先于o3-mini、Claude 3.7 Sonnet等模型。此外,大语言模型评审团评估方法被认为比标准词汇指标更能反映临床医生的判断。
据报道,在斯坦福大学临床医疗AI横评中,DeepSeek R1以66%胜率夺冠。研究团队构建了含35个基准测试的综合评估框架,覆盖22个子类别医疗任务,并经过临床医生验证。DeepSeek R1在临床决策支持、临床病例生成等任务中表现出色,领先于o3-mini、Claude 3.7 Sonnet等模型。此外,大语言模型评审团评估方法被认为比标准词汇指标更能反映临床医生的判断。