DeepSeek 近日推出的系列模型在全球 AI 圈引发震动。DeepSeek-V3 以低成本实现高性能,在多项评测中与顶尖闭源模型相当;DeepSeek-R1 则通过创新的训练方式,让模型展现出强大推理能力,性能对标 OpenAI o1 正式版,还开源了模型权重,为 AI 领域带来新的突破和思考。
DeepSeek 还公开全部训练技术。R1 对标 OpenAI 的 o1 模型,后训练阶段大量用强化学习技术。DeepSeek 称,R1 在数学、代码、自然语言推理等任务上与 o1 相当,且 API 价格不到 o1 的 4% 。
日前国外匿名职场社区 teamblind 上一个 Meta 员工匿名帖《Meta genai org in panic mode》特别火。DeepSeek V3 推出使 Llama 4 在基准测试中全面落后,Meta 生成式 AI 团队陷入恐慌。一家「不知名的中国公司」550 万美元预算完成训练打脸现有大模型。
Meta 工程师疯狂拆解 DeepSeek 试图复制,而管理层焦虑如何向高层交代高昂成本,其团队「领导者」薪水超 DeepSeek V3 训练成本就有数十人。DeepSeek R1 的出现让情况更糟,虽然有些信息还不能透露,但很快就会公开,到时候情况可能更加不利。
Meta 员工匿名帖译文如下(由 DeepSeek R1 翻译):
Meta 生成式 AI 部门进入紧急状态
这一切始于 DeepSeek V3——它让 Llama 4 的基准测试成绩瞬间显得过时。更令人难堪的是,「一家不知名的中国公司仅用 500 万美元训练预算」就实现了如此突破。
工程师团队正疯狂拆解DeepSeek架构,试图复制其所有技术细节。这绝非夸张,我们的代码库正在经历地毯式搜查。
管理层正为部门巨额开支的合理性焦头烂额。当每位生成式AI部门的「领导者」年薪都超过DeepSeek V3 整个训练成本,而这样的「领导者」我们养着几十个时,他们该如何向高层交代?
DeepSeek R1 让局势更加严峻。虽不能透露机密信息,但相关数据即将公之于众。
本应是精干的技术导向型团队,却因大量人员涌入争夺影响力,导致组织架构被刻意膨胀。这场权力游戏的结果?最终所有人都成了输家。
DeepSeek-V3:是一个参数量为 671B 的混合专家(MoE)语言模型,每个 token 激活 37B。它采用 Multi-head Latent Attention(MLA)和 DeepSeekMoE 架构,在 14.8 万亿高质量 token 上进行预训练,经过监督微调与强化学习,在多项测评中超越部分开源模型,与 GPT-4o、Claude 3.5 Sonnet 等顶尖闭源模型性能相当。训练成本低,仅需 278.8 万 H800 GPU 小时,约 557.6 万美元,且训练过程稳定。
DeepSeek-R1:包括 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 通过大规模强化学习训练,不依赖监督微调(SFT),展现出自我验证、反思等能力,但存在可读性差和语言混杂问题。DeepSeek-R1 在 DeepSeek-R1-Zero 基础上,引入多阶段训练和冷启动数据,解决了部分问题,在数学、代码、自然语言推理等任务上性能比肩 OpenAI o1 正式版。同时,还开源了多个不同参数规模的模型,推动开源社区发展。
性能卓越:在多项基准测试中,DeepSeek-V3 和 DeepSeek-R1 表现出色。如 DeepSeek-V3 在 MMLU、DROP 等评测中取得优异成绩;DeepSeek-R1 在 AIME 2024、MATH-500 等测试里,准确率高,与 OpenAI o1 正式版相当甚至在某些方面超越。
训练创新:
DeepSeek-V3 采用无辅助损失的负载均衡策略和多 Token 预测目标(MTP),减少性能下降,提高模型性能;使用 FP8 训练,验证了其在大规模模型上的可行性。
DeepSeek-R1-Zero 通过纯粹强化学习训练,仅依靠简单奖惩信号优化模型,证明了强化学习可提升模型推理能力;DeepSeek-R1 在此基础上,利用冷启动数据微调,提升模型稳定性和可读性。
开源共享:DeepSeek 系列模型秉持开源理念,开源了模型权重,如 DeepSeek-V3 和 DeepSeek-R1 及其蒸馏的小模型,允许用户通过蒸馏技术借助 R1 训练其他模型,推动 AI 技术的交流与创新。
多领域优势:DeepSeek-R1 在多个领域展现强大能力,在代码领域,于 Codeforces 平台评级高,超越多数人类参赛者;在自然语言处理任务中,处理各类文本理解和生成任务表现优秀。
性价比高:DeepSeek 系列模型 API 价格亲民。如 DeepSeek-V3 API 输入输出价格远低于同类模型;DeepSeek-R1 API 服务定价也具有竞争力,降低了开发者使用成本。
自然语言处理任务:包括文本生成、问答系统、机器翻译、文本摘要等。例如在问答系统中,DeepSeek-R1 能理解问题,运用推理能力给出准确答案;在文本生成任务里,可根据给定主题生成高质量文本。
代码开发:帮助开发者编写代码、调试程序、理解代码逻辑。比如开发者遇到代码问题时,DeepSeek-R1 可分析代码并提供解决方案;还能根据功能描述生成代码框架或具体代码片段。
数学问题求解:在数学教育、科研等场景,解决复杂数学问题。像 DeepSeek-R1 在 AIME 竞赛相关题目中表现出色,可用于辅助学生学习数学、科研人员处理数学难题。
模型研究与开发:为 AI 研究人员提供参考和工具,用于模型蒸馏、改进模型结构和训练方法等研究。研究人员可基于 DeepSeek 开源模型进行实验,探索新的技术方向。
辅助决策:在商业、金融等领域,处理数据和信息,提供决策建议。例如分析市场数据,为企业制定营销策略提供参考;处理金融数据,辅助投资决策。
访问平台:用户可登录 DeepSeek 官网(https://www.deepseek.com/),进入平台。
选择模型:在官网或 App 中,默认对话由 DeepSeek-V3 驱动,点击打开「深度思考」模式则是由 DeepSeek-R1 模型驱动。若通过 API 调用,根据需求在代码中设置对应的模型参数,如使用 DeepSeek-R1 时设置model='deepseek-reasoner'。
输入任务:在对话界面输入自然语言描述的任务,如「写一篇爱情小说」「解释这段代码的功能」「求解数学方程」等;若使用 API,按照 API 规范构建请求,将任务相关信息作为输入参数传递。
获取结果:模型处理任务后返回结果,在界面上查看生成的文本、解答的问题等;使用 API 时,从 API 响应中解析结果数据进行后续处理。
DeepSeek 系列模型凭借其卓越的性能、创新的训练方式、开源共享的精神以及高性价比的优势,在 AI 领域取得了显著成果。
如果你对 AI 技术感兴趣,不妨点赞、评论,分享你对 DeepSeek 系列模型的看法。同时,持续关注 DeepSeek 的后续发展,期待它为 AI 领域带来更多惊喜和突破,推动 AI 技术不断进步,为各个行业带来更多变革与机遇。