DeepSeek宣布R1升级:整体表现接近国际顶尖模型

  • 登载于 国际
DeepSeek。 DeepSeek。

(综合31日电)中国AI新创公司深度求索(DeepSeek)29日发出升级公告,解释DeepSeek-R1升级的具体情况。公告中提到,更新后的R1模型在数学、写程式与通用逻辑等多个基准测评中取得当前中国所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如o3与Gemini-2.5-Pro。

根据公告,DeepSeek R1模型已完成小版本升级,当前版本为DeepSeek-R1-0528。用户透过官方网站、APP或小程序进入对话界面后,开启深度思考功能即可体验最新版本。

公告提到,DeepSeek-R1-0528使用2024年12月所发布的DeepSeek V3 Base模型作为基座,但在后训练过程中投入了更多算力,显著提升模型的思维深度与推理能力。更新后的R1模型在数学、写程式与通用逻辑等多个基准测评中取得当前大陆所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如o3与Gemini-2.5-Pro。

相较于旧版R1,新版模型在复杂推理任务中的表现有显著提升。例如在AIME2025测试中,新版模型准确率由旧版的70%提升至87.5%。这一进步得益于模型在推理过程中的思维深度增强:在AIME2025测试集上,旧版模型平均每题使用12K tokens,而新版模型平均每题使用23Ktokens,表明其在解题过程中进行了更为详尽和深入的思考。

DeepSeek表示,DeepSeek-R1-0528的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。

新版DeepSeek R1针对幻觉问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低45-50%左右,能够有效地提供更为准确、可靠的结果。

在旧版R1的基础上,更新后的R1模型针对议论文、小说、散文等文体进行进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。

公告中还提到,目前模型的测评成绩与OpenAI o1-high相当,但与o3-High以及Claude4 Sonnet仍有差距。