取消
加载中...
阿里云开源智能体WebSailor登顶BrowseComp评测榜单
Feng 2025-07-07 18:03

今日阿里云宣布,通义实验室正式开源网络智能体WebSailor,该智能体凭借强大的推理与检索能力,在OpenAI发布的高难度智能体评测集BrowseComp上位列开源榜单首位。目前,其构建方案及部分数据集已在GitHub开源。


640 - 2025-07-07T180252.420.jpg


WebSailor专为复杂场景设计,能高效处理模糊问题,通过多步推理和交叉验证从海量信息中精准检索答案。通义实验室采用创新的post-training方法,显著提升了模型在网页推理任务中的表现。在BrowseComp评测中,WebSailor-32B和WebSailor-72B版本不仅领先于DeepSeek R1、Grok-3等开源模型,甚至超越部分闭源系统,仅次于OpenAI DeepResearch。


此外,WebSailor在普通任务数据集SimpleQA上也展现出优异性能,验证了其泛化能力。阿里云表示,该智能体的通用工作流及“高难度任务合成+高效RL优化”策略,可为开源社区解决复杂推理、学术发现等挑战提供借鉴。


Feng
文章总数
6894