深深梦几许,猎猎青云中 —— DeepSeek 和无意义的变革
最近,很多熟人和我都谈起了 DeepSeek 的成功和他们的模型。在开始今天的故事之前,我首先要澄清我的个人立场,我承认 DeepSeek 的成功,但是也希望大家能冷静看待我们和世界一流 AI 公司的差距。我们还有一段未竞的事业要走。在当下的舆论环境中,对 DeepSeek 的所有批评和客观分析,可能都会被戴上反贼的帽子,但是我还是想在诚实记录自己的想法。
为了更好阐述个人观点,本文会从下面几个角度思考,非严肃技术视角,也能帮助行业外的朋友理解最近的发展。
- DeepSeek 的各个模型分别在市场的什么生态位,他们真的好吗?
- AI 的能力边界比起一年前有多少进步。
- DeepSeek 和 OpenAI,这些国内外的公司,最近一年做了什么?
- 继续我一年前的讨论,AI 应用距离真正的落地,还有多远?
- 国内外的开发者分别要应对什么挑战?
- 我的不同视角,看到了什么机会?
本文观点,纯属个人暴论。欢迎指正。
模型能力的讨论
在我开始今天的开场白之前,其实我想聊聊我起的这个标题,并且给大力鼓吹 AI 的人泼一瓢冷水。
标题上,我借用了欧阳修的「庭院深深深几许」,和《大哉乾元》的「一跃破空 乘风逐虹 猎猎青云中」。这两句的开头的深和猎,分别对应了 Deep 和 Seek 两个词,表达我对 DeepSeek 工作的敬佩。而藏在标题背后,我引申中的第一维度,是人类深处的梦,它来自一个阴沉的地下室,在那里寄存了 200 年前陀思妥耶夫斯基的深沉拷问;引申的另一个维度,在我 2024 年循环了 99 次的歌曲《大哉乾元》中,对数字辅助创作中获得的感触。我想让更多人看到一个可能性。
这个标题中,有多语种共同描绘的意象,有不同世代伟大作品的抽象,有我喜欢艺术的投射,有我个人的审美,和我一点点微不足道的志向。这种标题,在我测试了几个小时后,DeepSeek 写不出半分我的味道。毕竟这个标题建立在我几个小时的思考和头脑风暴上,更建立在我二十多年的学习思考的过程中。所幸的是,我这诡异的脑洞,还没被 AI 完全学会。
说回正题,各种角度上,不难证明 DeepSeek 很强,但不万能。
大家都知道 DeepSeek 在各种 Leaderboard 上的榜单分数,也很容易就能查到各个数码博主、知识区 up 主对 DeepSeek 的评测和分析。但是我还是要理性判断一下当下 R1 模型的很多问题:
代码工作上,我的评价还是中规中矩。 R1 的 <think> 速度过慢,目前还是 Claude Sonnet 在我日常工作中可以发挥更强的作用。文字创作上,和上面一样,DeepSeek 和众多模型一样,不能给我有深度的思考提升。说车轱辘话确实很擅长,也能帮我应付一部分写作。
相比 Kimi,GPT-4o,o1 等模型,R1 用更高质量的中文数据,在语义理解维度确实展现出诡异进化。我曾用相同的《卡拉马佐夫兄弟》英文段落测试,旧模型只能机械翻译,R1 确实能非常丰富地展现一些词的微妙解读,譬如「release」在一些场景下,会被翻译成「解脱」。但这种「灵光乍现」完全不稳定,当我要求它将这种洞察转化为十四行诗时,输出的文本就沦为押韵的教条说教了。又譬如刚刚说到的标题,这种程度的工作,对现有的模型还为时尚早。
进步和提升
这篇文章确实写得太晚,DeepSeek 连续发布了六项相关工作,分别在:
- FlashMLA:针对 NVIDIA Hopper GPU 优化的高性能解码内核;支持 BF16 与分块 KV 缓存,实现高内存带宽(3000 GB/s)与高算力(580 TFLOPS),专注于处理变长序列。
- DeepEP:专为 MoE(混合专家)模型设计的高性能通信库;利用 FP8 压缩与 NVLink 技术,实现节点内外高速数据传输
- DeepGEMM:基于 FP8 的通用矩阵乘法库
- DualPipe & EPLB:分布式训练优化方案:DualPipe 实现双向流水线
- 3FS:高性能分布式文件系统,通过 SSD+RDMA 技术实现高吞吐(6.6 TiB/s)与低延迟数据存取
- Inference 框架
在很多国内的自媒体上,将 DeepSeek 的技术称为突破性创新。我个人部分认可这个说法,大部分创新实际上是工程创新。对于普通人用户来说,这些工作的价值并不大。这些工作的意义更多的是证明了我们可以通过各种方式堆叠算力,所谓的算力封锁和硬件禁运,并不是训不好模型的借口。对我个人也是很大的警醒,理论上,图灵完备的设备就是能算任何我想计算的东西,限制我的,到底是不够快的硬件,还是不够强的驱动力呢。
说完了上面的这些,我们开始聊聊最近一年的技术发展路线,在 2024 AI Major Events Timeline 上可以看出过去一年模型发展的一些代表性时间节点:

趋势其实不难看出,DeepSeek R1 的出现并不是偶然和运气。使用强化学习增强模型成为共识,结合 DeepSeek 早在去年就已经布局 MoE 相关技术,也能预料到他们会在今年推出强大的模型。我们也能读到明显的技术发展趋势:
- 多模态:音频端到端、视频端到端的模型逐渐发展起来
- 推理模型:模型注重使用 RL 提升推理效果
- MoE 和稀疏化模型:使用稀疏模型可以尽快
- 端侧:对应代表的技术不仅仅是端侧部署,还有蒸馏、压缩、量化等技术
从过去一年的发展来看,大模型从原来的 60 分水平提升到了 80 分,甚至接近 85 分的优秀水平,在暴力堆积参数,训练更大模型上,大部分公司已经开始碰壁。所以大家开始向 RL 方向的提出研究上看,我看到了非常明确的思路:如何更好地利用数据。
引用 arXiv 2502.21321 中的总结和归纳:

其实能看到各个公司都有对应的 RL 积累,训练范式并没有像预训练阶段那样,大家其实都快速收敛到 transformer 架构上进行调整。这里的争论还有很多,但这个问题有没有答案可能并不是那么重要,我个人的经验上发现,在不同的数据内容上,可能确实要用不同的训练思路和方法。例如在小规模包含 vision 的场景中,SFT + RLHF 确实会比较好使,而大规模的时候情况会可能倾向 GRPO。
但不管怎么说,过去的一年已经落下帷幕,DeepSeek 在一个新的时代开了一个好头。不论是 AI Infra,MoE,RL 都给我们呈现了满意的答卷。
停滞的产品
比起过去一年模型上的繁荣,我过去一年提出的问题,依旧没有得到解决:「我们距离 AI 产品落地还有很远的距离。」
产品方面,虽然 AI 概念炒得很热,但是实际上这个东西并没有让我们生活更好。理论上带来了生产力,但是实际上失业率还是很高,大家找工作难找,该内卷还是内卷。这个其实和产品形态有很大关系,我非常不认可 GPT 这类应用发展的方向。提高了生产力的同时,他没有开发新的市场,也没有改变应用形态。所以老板能做的事情只有裁员啊……因为 AI 比人便宜。
最近也看到「老蒋巨靠谱」Up 的一个观点,现在大量的模型被用在生成领域。不论是文、图还是音视频。互联网和自媒体上,长期存在的问题一直是低质量作品过盛,而高质量作品稀缺。能用 AI 辅助自己完成高质量创作的人还是极少数。这一现状依旧没有改变。
当下市场上的AI产品,无论是国内还是国外,几乎都是同质化的简单 agent。它们的交互形式不外乎是问答式的聊天窗口,或者作为简单的API被集成到现有软件中。这种千篇一律的形态反映了我们对AI应用想象力的匮乏。
DeepSeek、GPT-4、Claude等顶级模型尽管在基准测试上表现优异,但它们落地的应用形态几乎完全相同:一个通用助手,可以回答问题、写内容、执行简单任务。这就是为什么我认为,尽管模型从60分提升到了80分甚至85分,但真正的产品创新并没有同步发生。
更深层次的问题在于,现在的AI产品大多只是在增强现有工作流程,而非创造全新的可能性。这种情况下,AI确实提高了效率,但正如我前面所说,它没有开发新市场,也没有改变应用形态,结果就是老板能做的只有裁员,因为AI确实比人便宜。
不过,说完了不好的一面,这里还是有很多值得欣慰的事情。我在这里还想引用我去年的 blog:
在我看来,中国的 AI 生态生长状态处在一个畸形的状态。我们在一个脆弱的基础上建立了一套虚伪的繁荣。
在芯片资源受限的条件下,大厂之间的竞争变成了对私有数据的挖掘,构建各自的大模型。类比美国的产业结构,除了大量的 AI 产品服务商,OpenAI 和住多厂商也开放了 Fine Tune 和开发者平台,允许开发者进行二次定制;AWS 和前文提到的 banana 提供了 Serverless 的 GPU 业务方便没有设备的开发者快捷开发,也提供了让他们产品可以落地的部署平台。上述这两点对应的生态位在国产大厂中是非常稀缺的,这也是我对开篇问题给出的答案,限制 AI 产品发展的,其实是我们在异构计算时代,廉价云计算基建的缺失。
能看到的是,国内云厂商在 DeepSeek 出现之后迅速转型,提供 API 服务。同时,在不同赛道上的企业也开始逐步发展成熟,不论是 SiliconFlow,还是潞晨科技。都一步步完善了我们的算力生态。(这里不对任何企业发表任何看法)特别是 DeepSeek 直接打破了算力瓶颈。用已有的设备和 Hack 一样的技术,让直接 serving model 也能获得收益。
2025 的今天,在模型和基建上,我们已经有了世界一流的竞争力的时候,我在这里进行进一步的预言。
生成式模型的终结已经快到了。在民用领域,现在的 DeepSeek V3/R1 都已经很好地能满足大家的日常需求。但是精致的情绪需要,依旧满足不了;专业领域上也没有可用的专业模型去应对金融、物理、数学等复杂领域。不过,时机已到,用 RL 将现有模型带到下沉市场可能是未来 1-2 年的主旋律。
我们有全世界最强的互联网文化创造群体,在数量上,我们每天新创造的数据有绝对优势。我们现在很难看到高质量的数据社群,但是我也能看到高质量的个人 blog 在更新,知乎虽然盐选会员泛滥,但是也有对一些问题的高质量探讨。当我自己成为创作者的时候,我也能看到我的身边群星闪耀。个人 IP 的价值在未来一两年会快速增长,为个体数据服务的 AI 将会迅速增值和爆发。
国内外开发者的挑战
现有的所有训练技术,无论是 SFT、RLHF、GRPO 还是 DPO,其实都是为了训练「正确的模型」而服务。
什么是「正确的模型」?我们回顾过去的大模型发展,发现几乎所有的模型都是提供事实准确、有帮助且无害回答的模型。这种培养「完美通用助手」的固定思维模式,我认为正在限制我们对AI可能性的想象。
但很少有人思考如何训练「不正确的模型」。这里的「不正确」不代表没有意义。相反,刻意设计的「不正确性」可能恰恰是某些应用场景的核心价值。我们日常经常讨论如何规避「Hallucination」,但是有没有可能,有些时候,我们需要利用这种 Hallucination 呢?让我们深入探讨这个角度:
领域模型的思考
不同领域有不同的思维模式和方法论,但当前的通用模型倾向于用一种相对统一的方式处理所有问题。这导致了在特定专业领域的表现不够理想。
例如,在科学研究领域,一个理想的AI助手应该具备科学思维方式——质疑假设、设计实验、分析数据、形成理论。但当前的AI往往倾向于直接提供”答案”,而非遵循科学探究的过程。
同样,在创意写作领域,一个真正有价值的AI应该能够理解叙事结构、人物塑造、情感张力等文学元素,而不仅仅是生成语法正确、内容连贯的文本。
在战略咨询领域,AI需要能够进行系统思考、识别关键杠杆点、分析利益相关者,这些都需要特定的思维模型。开发者的机会在于,针对特定领域开发专门的模型,这些模型不追求全能,而是在特定思维模式上做到极致。
当所有的技术都专注在 Predict Next Token 的时候,有没有可能在 token 之上,其实有更深刻的轨迹值得我们关注呢?我前段时间一直在思考一个问题,关于什么是思维的形状,将支持 think 的模型进行处理之后,似乎确实有一些值得说道的规律在其中。模型的思维接近一个螺旋,而我们的思考是不是也是在螺旋上发生的呢?
我不好说,这里有太多的不确定和未知。单不论如何,现有的模型太正确了。我期待看到一个能帮我摆脱思维螺旋的怪物。除了思考模式,情感方面的问题也很多。
当前的AI模型普遍缺乏情感深度和个性特征,它们可以模拟情感表达,但难以真正融入情感互动中。这是因为情感不仅仅是内容的一部分,更是交流的方式和节奏。
开发者可以尝试训练具有特定情感色彩或交流风格的模型:
- 一个专注于同理心的模型,能够真正感知并回应用户的情绪状态
- 一个具有幽默感的模型,不仅能讲笑话,还能理解幽默的时机和界限
- 一个具有治愈性质的模型,能够提供情感支持和心理安慰
- 一个擅长激励的模型,能够在用户面临挑战时提供鼓励和动力
这些模型在传统评估中可能显得”偏颇”或”不够客观”,但在特定的人际互动场景中,它们可能比中性模型更有价值。而我们所谓的「alignment」某种意义上敲打了模型的特殊能力。
这个领域确实有一个突破的尝试。在 DeepSeek 火爆的一段时间内,确实诞生了例如 DeepSex 的模型,这也确实有一些意思。在未来一年中,我认为这种模型会大量爆发。
大多数AI模型被训练成了「答案提供者」——它们的目标是给出最准确、最全面的答案。但在许多创造性工作中,我们需要的不是答案,而是启发和可能性。
开发者可以尝试训练更注重探索而非确定性的模型:
- 一个专注于发散思维的模型,能够为问题提供多样化的思路和角度
- 一个擅长挑战假设的模型,能够指出常见思路中的盲点和局限
- 一个侧重于连接不同概念的模型,能够建立看似不相关领域之间的桥梁
这些模型的价值不在于它们能够提供多么”正确”的答案,而在于它们能够多大程度上拓展用户的思维边界和创造可能性。
总之,我认为开发者的机会在于打破通用助手的范式,转向多元化、专业化、个性化的模型方向。直白点说:「别老惦记那个聊天机器人了,没人想整天和 AI 聊天的」。但是这不仅需要技术上的创新,更需要在模型设计理念上的突破。真正理解并拥抱「不正确性」的价值,可能是下一代 AI 产品的关键差异化因素。
AI 应用的形态
在这些挑战中,我看到了几个方向的机会:
垂直领域的专业化模型:通用模型已经足够好,但专业领域的需求远未被满足。金融、医疗、教育、法律等领域,都需要深度理解专业知识和行业规则的模型。这些模型可能不需要像R1那样庞大,但需要针对特定场景进行精细调优。小而美的专业模型,可能比通用大模型更有商业价值。
基于模型能力的新型交互体验:当下的AI应用大多数还停留在对话框输入-输出的范式中。如何利用模型能力,设计更自然、更高效的人机交互体验,这里有大量未被开发的空间。例如,将AI能力更深度地融入到工作流程中,让用户几乎感知不到AI的存在,但能持续受益于AI的辅助。
与传统软件的深度融合:相比单纯的AI应用,将AI能力无缝融入到已有的软件生态中,可能是更务实的路径。Office套件、设计工具、开发环境等传统软件,都可以通过AI获得新生。这不是简单的功能添加,而是对软件使用范式的重新思考。
简单来说,现在的 AI 模型已经学会了人类语言,基本学会了看懂自己的视野里是什么。下一步呢?
这是一个值得所有人思考的问题,也是我未来一年要去回答的问题。毕竟写了这么多没有用的废话,也写了这么多没有用的 app,我已经有点累了。再重复劳动,确实有点大可不必。
总结:放弃幻想
不论怎么说,DeepSeek确实在技术层面取得了令人瞩目的成就,它证明了中国企业在算力受限的情况下,依然能够通过技术创新达到世界一流水平。但我们也要客观看待,模型能力的提升并不等同于产品价值的提升,AI 应用距离真正改变世界还有很长的路。
过去一年,AI 模型在技术上从 60 分提升到了 80 分甚至 85 分,但产品落地依然面临挑战。我们看到了更多的生成内容,但并没有看到足够多的创新应用形态。但是我看不到我想要的东西,我还是不认为现在的交互形态是一种良好的生态。
- 通用大模型的技术红利会逐渐见顶,未来的竞争将更多聚焦于特定领域的专业化模型。
- AI产品将从单纯的效率工具,向创造新价值的方向转变。只有那些能够开拓新市场、创造新需求的AI应用,才能避免简单的替代效应。
- 基础设施和开发环境的完善,将降低AI应用的开发门槛,让更多中小团队有机会参与竞争。和互联网基建完善之后,大规模的网站和应用爆发增长一样。
最后,借用我在标题中隐含的那个思考:AI 确实深不可测,但我们对它的追求也应该有所克制。技术进步固然令人振奋,但技术本身并不是目的。在追求更强大的模型的同时,我们也应该思考:这些技术到底为人类带来了什么?它们是否真正解决了我们的问题,创造了新的价值?
陀思妥耶夫斯基在《地下室手记》中曾写道:「人是不会仅仅为了达到目的而生活的,他会为了生活本身而活着。」
同样,AI的发展也不应仅仅为了技术而技术,而应该回归到为人类创造价值的本质上来。
在这个意义上,DeepSeek的成功只是一个开始,而非终点。真正的挑战还在后面:如何将这些技术转化为改变世界的产品和服务,如何确保技术发展的方向与人类福祉相一致。这才是我们每个人,无论是技术开发者还是产品设计师,都应该思考的问题。
然而我呢?半年前我还怀抱着自己的幻想,我自以为掌握了很多别人不知道的 know how,我知道很多脏技术和小技巧。怀抱着这些幻想,沉溺在懒惰和摆烂里面。正如我所说,我自认为我完成了解构,但是不想去构建,更不愿意磨砺自己的技术。我一次次用《涅朵奇卡》提醒自己,结果还是中了傲慢的蛊惑。
不过还好,今年通过几次面试看到了自己的缺陷,让自己清醒了很多。
所以,放弃幻想,保持战斗吧。学术和开发的社区中,我无数次看到自己想做的 idea 被别人用各种诡异的方式实现,一度,给我确实带来了巨大的冲击和动摇。不过,我还是要坚持做自己喜欢的事情,明知不可为而为之,这是我的勇气。我渴望成为英雄,我也知道自己不可能成为英雄,但是我还是要继续写代码,要继续写作和创作。如同大门的《紫川》书评中所言:「天地无用是英雄,人间正道是沧桑」。
我的路还长,但是我醒过来的时候,我知道往哪里走了。