现在有多少人在工作和生活中已经习惯了“DeepSeek”一下,或者是使用已经接入DeepSeek的其他大模型平台。
2025年横空出世的DeepSeek不仅震惊了国内,还让英伟达的市值一天蒸发了6000亿美元。
DeepSeek是怎么横空出世的?又是怎么让每个人都享受上大模型的高效与智能的?在笔者看来,大概有以下几点原因:
1.从底层技术创新出发,走极致性价比路线;
2.以技术平权为信仰,从“工具”到“基础设施”发展;
3.创新不完全由商业驱动,更需要好奇心和探索欲。
01
从底层技术创新出发
走极致性价比路线
不收费且开源,deepseek第二代MoE大模型 DeepSeek-V2上线时,就因为性能和价格优势获得了“AI届拼多多”的名号。
而这一名号的由来,主要得益于其极致的性价比。比如在模型的效果上,它赶上了行业第一梯队,甚至在某些方面超越了他们。
以DeepSeek-R1 模型为例,在数学计算测试方面,R1在MATH 基准测试上达到了77.5%的准确率,与OpenAI的 o1不分伯仲。
而在编程领域,其在Codeforces的评测中获得了2441的高分,高于96.3%的人类参与者。
这么优秀的性能表现,背后的投入却并不高。比如DeepSeek-R1的预训练费只有557.6万美元,不到OpenAI GPT-4o模型训练成本的十分之一。
同时,DeepSeek公布的API定价,每百万输入 tokens1元(缓存命中)/4 元 (缓存未命中),每百万输出tokens16元,这个成本大概是OpenAI o1的三十分之一。
为什么DeepSeek能做到这么高的性价比?
从底层技术上创新,主要是算法和工程方面。
比如在算法方面,它延续v2/3,使用MLA+MOE,大幅度提高了模型的效率。其中,MLA通过降秩KV矩阵,减少了显存消耗。
MOE把模型分解为多个专家模型和一个门控网络,每个专家模型只需要处理一部分数据,从而减少了模型参数数量,降低了计算量。
推理方面,DeepSeek放弃SFT完全转向了RL,并且对RL算法进行了大量创新,使得推理能力大幅度提升。
在算力使用上,它通过微调PTX,在算子层面大大提升效率。
凭借优异的性能和超高性价比,DeepSeek开年即火爆,在全球圈粉无数。
它的APP在几天内就登顶了全球140个市场的应用商店下载榜首,甚至一度因访问量过多而“崩溃”。
02
以技术平权为信仰
从“工具”到“基础设施”发展
除了成本之外,更让AI行业内人士振奋的是DeepSeek开源的诚意。
DeepSeek的开源决策,本质上是一场“技术平权”的宣言。
在巨头垄断模型训练、数据与算力的当下,开源打破了技术壁垒,让中小企业、科研团队甚至个人开发者都能平等使用大模型能力。
其开源模型代码、训练框架与数据集,不仅降低了技术复现成本(例如,训练成本较行业平均水平降低60%)。
更通过“全民共建”模式激活创新生态——开发者可基于开源模型二次开发,形成工具链、插件库等衍生应用,反过来丰富DeepSeek的产品矩阵。
这种“开源-生态-商业”的闭环,既是对“技术垄断”的温柔抵抗,也是对“AI普惠”的实践承诺。
更重要的是,开源的意义远不止于技术共享。
它重构了AI行业的权力结构,当代码向世界敞开,技术才能真正成为解决问题的工具,而非资本游戏的筹码。
从伦理层面看,开源消解了“黑箱”风险,通过透明化算法逻辑提升用户信任,为AI伦理的全球治理提供了中国方案。
从产业层面看,它推动芯片厂商、云服务商等上下游企业协同创新,倒逼行业从“算力堆砌”转向“算法优化”,加速技术范式革新。
从国家战略层面看,开源模型成为展示中国技术实力的“数字名片”,通过技术溢出效应赋能全球开发者,助力中国在AI标准制定中占据主动权。
DeepSeek创始人梁文锋曾说:“开源不是终点,而是技术民主化的起点。”
这场静默的革命,正在将大模型从“少数人的武器”变为“所有人的基础设施”,其价值已超越商业竞争。
03
创新不完全是商业驱动
更需要好奇心和创造欲
DeepSeek的招聘标准不同于其他传统大模型公司,即不看学历、不问经验,只筛选“对技术充满纯粹热爱”的年轻人。
团队75%为90后,核心成员多是顶尖高校应届生或在读博士生。
梁文锋坦言:“我们需要的是‘没有被现实驯化’的人,他们敢于提出‘幼稚’的问题,甚至挑战常识。”
这种“极客文化”下,成员以论文为饭桌话题,以代码为创作语言,技术突破成为自我实现的副产品。
例如,一位实习生提出的GPU通信优化方案,未经审批便被纳入训练集群,最终将模型效率提升30%。
在这里,失败不是代价,而是“未被验证的灵感”,年轻工程师的“不成熟”反而成为突破经验桎梏的利器。
公司的价值观,不以“商业成功”为目标,而以“技术信仰”为理想。
比如,DeepSeek的组织架构刻意打破传统层级,团队成员可自由调用算力资源、组建跨领域小组,甚至直接参与战略决策。
创始人亲自编写代码,会议室门永远敞开,讨论从不预设结论——这种“无规则”的规则,反而催生了极致的创造力。
例如,一次关于“如何让模型更像人类”的脑暴会上,成员们抛开商业指标,从心理学论文中寻找灵感,最终设计出行业领先的对话系统。
梁文锋将这种文化称为“技术理想主义”,其核心是让创造欲超越功利心,让技术回归解决人类根本问题的初心。
DeepSeek的实践,标志着中国科技企业从“技术跟随者”向“规则定义者”的跨越。
它的成功证明:在AI领域,中国无需重复“先模仿再超越”的旧路径,而是能以原创性创新直接参与全球竞争。
结语:
DeepSeek的横空出世,不仅改写了AI行业的竞争剧本,更重塑了商业世界的价值坐标。
当它以“极致性价比+开源生态”的双轮驱动模式撕开巨头垄断的缺口,本质上是在践行一种更具穿透力的商业哲学:
技术普惠不是慈善,而是通过重构成本结构、释放网络效应,创造可持续的价值飞轮。