近日,DeepSeek AI 正式发布 DeepSeek-V3 模型的小版本升级——DeepSeek-V3-0324。新版本现已开放体验,用户可通过官方网页、App 和小程序关闭“深度思考”后使用,无需更改 API 接口和使用方式。

详情
推理任务能力大幅提升,超越 GPT-4.5
DeepSeek-V3-0324 借鉴 DeepSeek-R1 在训练过程中使用的强化学习技术,在数学与代码相关任务的表现上实现显著提升。最新评测数据显示,在 MATH-500、AIME 2024、LiveCodeBench 等数据集上的表现超过 GPT-4.5,展现出更强的推理与代码生成能力。
前端开发与中文写作能力增强
在 HTML 和前端代码生成方面,DeepSeek-V3-0324 生成的代码可用性更高,视觉效果更加美观,富有设计感。同时,在中文写作任务上,新版本针对中长篇文本创作进行了优化,内容质量更上一层楼。
搜索与工具调用优化,体验更加流畅
新版 V3 模型在联网搜索场景下,对报告类任务的内容输出更加详实准确,排版更清晰。此外,工具调用、角色扮演、问答闲聊等多方面能力均有所提升,使对话体验更加流畅。
开源与私有化部署支持
DeepSeek-V3-0324 沿用 DeepSeek-V3 的 base 模型,仅优化后训练方法。私有化部署时,仅需更新 checkpoint 和 tokenizer_config.json,即可完成升级。模型参数规模约 660B,开源版本支持 128K 上下文长度(网页端、App 和 API 提供 64K)。
链接
模型现已开源,并遵循 MIT License,允许用户利用模型输出或蒸馏训练其他模型。权重下载地址如下: