声明:本文素材来源于公开产品更新日志与行业技术报道,观点均为笔者个人实践心得,仅供参考。
之前大家都在卷模型参数,卷到后来发现算力账单压得喘不过气。结果DeepSeek直接来了个狠的——2026年5月16日,R2开源了。
670B参数MoE架构,多项基准测试直接超越Llama 4,训练成本才550万美元。
550万美元什么概念?相当于行业常规训练成本的零头。这数字一出来,整个圈子里的人都在算账:以前烧了那么多钱,到底图啥?
HuggingFace上24小时下载量就破了50万,开发者们抢着试,就是因为这个性价比太离谱了。
笔记时间:
对我们实际干活的人来说,这个信号很明确——以后别盲目追“参数最大”的模型了。按需选型才是正事。
腾讯云智能体开发平台那边,DeepSeek-V3-0324、DeepSeek-V3.1-Terminus这些旧版本,2026年5月22日起就不支持调用了,会自动升级到DeepSeek-V3.2。-大家手里如果有依赖旧版本API的项目,记得在5月22日前检查一下,别到时候调用崩了才反应过来。-
V3.2这个版本,主打的是推理能力与输出长度的平衡,支持160K上下文长度,适合日常问答和通用Agent任务场景。