昨日,“深度求索”官方公众号发布博文,宣布DeepSeek-V3模型正式上线并同步开源。用户可通过官网chat.deepseek.com与最新版V3模型进行对话。
DeepSeek-V3是一个6710亿参数的专家混合(MoE)模型,激活参数达370亿,并在14.8万亿token上进行了预训练。该模型在多项评测中表现优异,超越了Qwen2.5-72B和Llama-3.1-405B等开源模型,性能比肩GPT-4o和Claude-3.5-Sonnet等世界顶尖闭源模型。
在知识、长文本、代码、数学和中文等方面,DeepSeek-V3均取得了显著进步,尤其在算法代码和数学方面表现突出。生成速度提升至60 TPS,相比V2.5提升了3倍。
官方开源了原生FP8权重,并提供BF16转换脚本,方便社区适配和应用。SGLang、LMDeploy、TensorRT-LLM和MindIE已支持V3模型推理。
此外,DeepSeek还调整了API服务价格,并设置了长达45天的优惠价格体验期。即日起至2025年2月8日,用户可享受优惠价格。