深深梦几许，猎猎青云中 —— DeepSeek 和无意义的变革

最近，很多熟人和我都谈起了 DeepSeek 的成功和他们的模型。在开始今天的故事之前，我首先要澄清我的个人立场，我承认 DeepSeek 的成功，但是也希望大家能冷静看待我们和世界一流 AI 公司的差距。我们还有一段未竞的事业要走。在当下的舆论环境中，对 DeepSeek 的所有批评和客观分析，可能都会被戴上反贼的帽子，但是我还是想在诚实记录自己的想法。

为了更好阐述个人观点，本文会从下面几个角度思考，非严肃技术视角，也能帮助行业外的朋友理解最近的发展。

DeepSeek 的各个模型分别在市场的什么生态位，他们真的好吗？
AI 的能力边界比起一年前有多少进步。
DeepSeek 和 OpenAI，这些国内外的公司，最近一年做了什么？
继续我一年前的讨论，AI 应用距离真正的落地，还有多远？
国内外的开发者分别要应对什么挑战？
我的不同视角，看到了什么机会？

本文观点，纯属个人暴论。欢迎指正。

模型能力的讨论

在我开始今天的开场白之前，其实我想聊聊我起的这个标题，并且给大力鼓吹 AI 的人泼一瓢冷水。

标题上，我借用了欧阳修的「庭院深深深几许」，和《大哉乾元》的「一跃破空乘风逐虹猎猎青云中」。这两句的开头的深和猎，分别对应了 Deep 和 Seek 两个词，表达我对 DeepSeek 工作的敬佩。而藏在标题背后，我引申中的第一维度，是人类深处的梦，它来自一个阴沉的地下室，在那里寄存了 200 年前陀思妥耶夫斯基的深沉拷问；引申的另一个维度，在我 2024 年循环了 99 次的歌曲《大哉乾元》中，对数字辅助创作中获得的感触。我想让更多人看到一个可能性。

这个标题中，有多语种共同描绘的意象，有不同世代伟大作品的抽象，有我喜欢艺术的投射，有我个人的审美，和我一点点微不足道的志向。这种标题，在我测试了几个小时后，DeepSeek 写不出半分我的味道。毕竟这个标题建立在我几个小时的思考和头脑风暴上，更建立在我二十多年的学习思考的过程中。所幸的是，我这诡异的脑洞，还没被 AI 完全学会。

说回正题，各种角度上，不难证明 DeepSeek 很强，但不万能。

大家都知道 DeepSeek 在各种 Leaderboard 上的榜单分数，也很容易就能查到各个数码博主、知识区 up 主对 DeepSeek 的评测和分析。但是我还是要理性判断一下当下 R1 模型的很多问题：

代码工作上，我的评价还是中规中矩。 R1 的 <think> 速度过慢，目前还是 Claude Sonnet 在我日常工作中可以发挥更强的作用。文字创作上，和上面一样，DeepSeek 和众多模型一样，不能给我有深度的思考提升。说车轱辘话确实很擅长，也能帮我应付一部分写作。

相比 Kimi，GPT-4o，o1 等模型，R1 用更高质量的中文数据，在语义理解维度确实展现出诡异进化。我曾用相同的《卡拉马佐夫兄弟》英文段落测试，旧模型只能机械翻译，R1 确实能非常丰富地展现一些词的微妙解读，譬如「release」在一些场景下，会被翻译成「解脱」。但这种「灵光乍现」完全不稳定，当我要求它将这种洞察转化为十四行诗时，输出的文本就沦为押韵的教条说教了。又譬如刚刚说到的标题，这种程度的工作，对现有的模型还为时尚早。

进步和提升

这篇文章确实写得太晚，DeepSeek 连续发布了六项相关工作，分别在：

FlashMLA：针对 NVIDIA Hopper GPU 优化的高性能解码内核；支持 BF16 与分块 KV 缓存，实现高内存带宽（3000 GB/s）与高算力（580 TFLOPS），专注于处理变长序列。
DeepEP：专为 MoE（混合专家）模型设计的高性能通信库；利用 FP8 压缩与 NVLink 技术，实现节点内外高速数据传输
DeepGEMM：基于 FP8 的通用矩阵乘法库
DualPipe & EPLB：分布式训练优化方案：DualPipe 实现双向流水线
3FS：高性能分布式文件系统，通过 SSD+RDMA 技术实现高吞吐（6.6 TiB/s）与低延迟数据存取
Inference 框架

在很多国内的自媒体上，将 DeepSeek 的技术称为突破性创新。我个人部分认可这个说法，大部分创新实际上是工程创新。对于普通人用户来说，这些工作的价值并不大。这些工作的意义更多的是证明了我们可以通过各种方式堆叠算力，所谓的算力封锁和硬件禁运，并不是训不好模型的借口。对我个人也是很大的警醒，理论上，图灵完备的设备就是能算任何我想计算的东西，限制我的，到底是不够快的硬件，还是不够强的驱动力呢。

说完了上面的这些，我们开始聊聊最近一年的技术发展路线，在 2024 AI Major Events Timeline 上可以看出过去一年模型发展的一些代表性时间节点：

趋势其实不难看出，DeepSeek R1 的出现并不是偶然和运气。使用强化学习增强模型成为共识，结合 DeepSeek 早在去年就已经布局 MoE 相关技术，也能预料到他们会在今年推出强大的模型。我们也能读到明显的技术发展趋势：

多模态：音频端到端、视频端到端的模型逐渐发展起来
推理模型：模型注重使用 RL 提升推理效果
MoE 和稀疏化模型：使用稀疏模型可以尽快
端侧：对应代表的技术不仅仅是端侧部署，还有蒸馏、压缩、量化等技术

从过去一年的发展来看，大模型从原来的 60 分水平提升到了 80 分，甚至接近 85 分的优秀水平，在暴力堆积参数，训练更大模型上，大部分公司已经开始碰壁。所以大家开始向 RL 方向的提出研究上看，我看到了非常明确的思路：如何更好地利用数据。

引用 arXiv 2502.21321 中的总结和归纳：

其实能看到各个公司都有对应的 RL 积累，训练范式并没有像预训练阶段那样，大家其实都快速收敛到 transformer 架构上进行调整。这里的争论还有很多，但这个问题有没有答案可能并不是那么重要，我个人的经验上发现，在不同的数据内容上，可能确实要用不同的训练思路和方法。例如在小规模包含 vision 的场景中，SFT + RLHF 确实会比较好使，而大规模的时候情况会可能倾向 GRPO。

但不管怎么说，过去的一年已经落下帷幕，DeepSeek 在一个新的时代开了一个好头。不论是 AI Infra，MoE，RL 都给我们呈现了满意的答卷。

停滞的产品

比起过去一年模型上的繁荣，我过去一年提出的问题，依旧没有得到解决：「我们距离 AI 产品落地还有很远的距离。」

产品方面，虽然 AI 概念炒得很热，但是实际上这个东西并没有让我们生活更好。理论上带来了生产力，但是实际上失业率还是很高，大家找工作难找，该内卷还是内卷。这个其实和产品形态有很大关系，我非常不认可 GPT 这类应用发展的方向。提高了生产力的同时，他没有开发新的市场，也没有改变应用形态。所以老板能做的事情只有裁员啊……因为 AI 比人便宜。

最近也看到「老蒋巨靠谱」Up 的一个观点，现在大量的模型被用在生成领域。不论是文、图还是音视频。互联网和自媒体上，长期存在的问题一直是低质量作品过盛，而高质量作品稀缺。能用 AI 辅助自己完成高质量创作的人还是极少数。这一现状依旧没有改变。

当下市场上的AI产品，无论是国内还是国外，几乎都是同质化的简单 agent。它们的交互形式不外乎是问答式的聊天窗口，或者作为简单的API被集成到现有软件中。这种千篇一律的形态反映了我们对AI应用想象力的匮乏。

DeepSeek、GPT-4、Claude等顶级模型尽管在基准测试上表现优异，但它们落地的应用形态几乎完全相同：一个通用助手，可以回答问题、写内容、执行简单任务。这就是为什么我认为，尽管模型从60分提升到了80分甚至85分，但真正的产品创新并没有同步发生。

更深层次的问题在于，现在的AI产品大多只是在增强现有工作流程，而非创造全新的可能性。这种情况下，AI确实提高了效率，但正如我前面所说，它没有开发新市场，也没有改变应用形态，结果就是老板能做的只有裁员，因为AI确实比人便宜。

不过，说完了不好的一面，这里还是有很多值得欣慰的事情。我在这里还想引用我去年的 blog：

在我看来，中国的 AI 生态生长状态处在一个畸形的状态。我们在一个脆弱的基础上建立了一套虚伪的繁荣。

在芯片资源受限的条件下，大厂之间的竞争变成了对私有数据的挖掘，构建各自的大模型。类比美国的产业结构，除了大量的 AI 产品服务商，OpenAI 和住多厂商也开放了 Fine Tune 和开发者平台，允许开发者进行二次定制；AWS 和前文提到的 banana 提供了 Serverless 的 GPU 业务方便没有设备的开发者快捷开发，也提供了让他们产品可以落地的部署平台。上述这两点对应的生态位在国产大厂中是非常稀缺的，这也是我对开篇问题给出的答案，限制 AI 产品发展的，其实是我们在异构计算时代，廉价云计算基建的缺失。

能看到的是，国内云厂商在 DeepSeek 出现之后迅速转型，提供 API 服务。同时，在不同赛道上的企业也开始逐步发展成熟，不论是 SiliconFlow，还是潞晨科技。都一步步完善了我们的算力生态。（这里不对任何企业发表任何看法）特别是 DeepSeek 直接打破了算力瓶颈。用已有的设备和 Hack 一样的技术，让直接 serving model 也能获得收益。

2025 的今天，在模型和基建上，我们已经有了世界一流的竞争力的时候，我在这里进行进一步的预言。

生成式模型的终结已经快到了。在民用领域，现在的 DeepSeek V3/R1 都已经很好地能满足大家的日常需求。但是精致的情绪需要，依旧满足不了；专业领域上也没有可用的专业模型去应对金融、物理、数学等复杂领域。不过，时机已到，用 RL 将现有模型带到下沉市场可能是未来 1-2 年的主旋律。

我们有全世界最强的互联网文化创造群体，在数量上，我们每天新创造的数据有绝对优势。我们现在很难看到高质量的数据社群，但是我也能看到高质量的个人 blog 在更新，知乎虽然盐选会员泛滥，但是也有对一些问题的高质量探讨。当我自己成为创作者的时候，我也能看到我的身边群星闪耀。个人 IP 的价值在未来一两年会快速增长，为个体数据服务的 AI 将会迅速增值和爆发。

国内外开发者的挑战

现有的所有训练技术，无论是 SFT、RLHF、GRPO 还是 DPO，其实都是为了训练「正确的模型」而服务。

什么是「正确的模型」？我们回顾过去的大模型发展，发现几乎所有的模型都是提供事实准确、有帮助且无害回答的模型。这种培养「完美通用助手」的固定思维模式，我认为正在限制我们对AI可能性的想象。

但很少有人思考如何训练「不正确的模型」。这里的「不正确」不代表没有意义。相反，刻意设计的「不正确性」可能恰恰是某些应用场景的核心价值。我们日常经常讨论如何规避「Hallucination」，但是有没有可能，有些时候，我们需要利用这种 Hallucination 呢？让我们深入探讨这个角度：

领域模型的思考

不同领域有不同的思维模式和方法论，但当前的通用模型倾向于用一种相对统一的方式处理所有问题。这导致了在特定专业领域的表现不够理想。

例如，在科学研究领域，一个理想的AI助手应该具备科学思维方式——质疑假设、设计实验、分析数据、形成理论。但当前的AI往往倾向于直接提供”答案”，而非遵循科学探究的过程。

同样，在创意写作领域，一个真正有价值的AI应该能够理解叙事结构、人物塑造、情感张力等文学元素，而不仅仅是生成语法正确、内容连贯的文本。

在战略咨询领域，AI需要能够进行系统思考、识别关键杠杆点、分析利益相关者，这些都需要特定的思维模型。开发者的机会在于，针对特定领域开发专门的模型，这些模型不追求全能，而是在特定思维模式上做到极致。

当所有的技术都专注在 Predict Next Token 的时候，有没有可能在 token 之上，其实有更深刻的轨迹值得我们关注呢？我前段时间一直在思考一个问题，关于什么是思维的形状，将支持 think 的模型进行处理之后，似乎确实有一些值得说道的规律在其中。模型的思维接近一个螺旋，而我们的思考是不是也是在螺旋上发生的呢？

我不好说，这里有太多的不确定和未知。单不论如何，现有的模型太正确了。我期待看到一个能帮我摆脱思维螺旋的怪物。除了思考模式，情感方面的问题也很多。

当前的AI模型普遍缺乏情感深度和个性特征，它们可以模拟情感表达，但难以真正融入情感互动中。这是因为情感不仅仅是内容的一部分，更是交流的方式和节奏。

开发者可以尝试训练具有特定情感色彩或交流风格的模型：

一个专注于同理心的模型，能够真正感知并回应用户的情绪状态
一个具有幽默感的模型，不仅能讲笑话，还能理解幽默的时机和界限
一个具有治愈性质的模型，能够提供情感支持和心理安慰
一个擅长激励的模型，能够在用户面临挑战时提供鼓励和动力

这些模型在传统评估中可能显得”偏颇”或”不够客观”，但在特定的人际互动场景中，它们可能比中性模型更有价值。而我们所谓的「alignment」某种意义上敲打了模型的特殊能力。

这个领域确实有一个突破的尝试。在 DeepSeek 火爆的一段时间内，确实诞生了例如 DeepSex 的模型，这也确实有一些意思。在未来一年中，我认为这种模型会大量爆发。

大多数AI模型被训练成了「答案提供者」——它们的目标是给出最准确、最全面的答案。但在许多创造性工作中，我们需要的不是答案，而是启发和可能性。

开发者可以尝试训练更注重探索而非确定性的模型：

一个专注于发散思维的模型，能够为问题提供多样化的思路和角度
一个擅长挑战假设的模型，能够指出常见思路中的盲点和局限
一个侧重于连接不同概念的模型，能够建立看似不相关领域之间的桥梁

这些模型的价值不在于它们能够提供多么”正确”的答案，而在于它们能够多大程度上拓展用户的思维边界和创造可能性。

总之，我认为开发者的机会在于打破通用助手的范式，转向多元化、专业化、个性化的模型方向。直白点说：「别老惦记那个聊天机器人了，没人想整天和 AI 聊天的」。但是这不仅需要技术上的创新，更需要在模型设计理念上的突破。真正理解并拥抱「不正确性」的价值，可能是下一代 AI 产品的关键差异化因素。

AI 应用的形态

在这些挑战中，我看到了几个方向的机会：

垂直领域的专业化模型：通用模型已经足够好，但专业领域的需求远未被满足。金融、医疗、教育、法律等领域，都需要深度理解专业知识和行业规则的模型。这些模型可能不需要像R1那样庞大，但需要针对特定场景进行精细调优。小而美的专业模型，可能比通用大模型更有商业价值。
基于模型能力的新型交互体验：当下的AI应用大多数还停留在对话框输入-输出的范式中。如何利用模型能力，设计更自然、更高效的人机交互体验，这里有大量未被开发的空间。例如，将AI能力更深度地融入到工作流程中，让用户几乎感知不到AI的存在，但能持续受益于AI的辅助。
与传统软件的深度融合：相比单纯的AI应用，将AI能力无缝融入到已有的软件生态中，可能是更务实的路径。Office套件、设计工具、开发环境等传统软件，都可以通过AI获得新生。这不是简单的功能添加，而是对软件使用范式的重新思考。

简单来说，现在的 AI 模型已经学会了人类语言，基本学会了看懂自己的视野里是什么。下一步呢？

这是一个值得所有人思考的问题，也是我未来一年要去回答的问题。毕竟写了这么多没有用的废话，也写了这么多没有用的 app，我已经有点累了。再重复劳动，确实有点大可不必。

总结：放弃幻想

不论怎么说，DeepSeek确实在技术层面取得了令人瞩目的成就，它证明了中国企业在算力受限的情况下，依然能够通过技术创新达到世界一流水平。但我们也要客观看待，模型能力的提升并不等同于产品价值的提升，AI 应用距离真正改变世界还有很长的路。

过去一年，AI 模型在技术上从 60 分提升到了 80 分甚至 85 分，但产品落地依然面临挑战。我们看到了更多的生成内容，但并没有看到足够多的创新应用形态。但是我看不到我想要的东西，我还是不认为现在的交互形态是一种良好的生态。

通用大模型的技术红利会逐渐见顶，未来的竞争将更多聚焦于特定领域的专业化模型。
AI产品将从单纯的效率工具，向创造新价值的方向转变。只有那些能够开拓新市场、创造新需求的AI应用，才能避免简单的替代效应。
基础设施和开发环境的完善，将降低AI应用的开发门槛，让更多中小团队有机会参与竞争。和互联网基建完善之后，大规模的网站和应用爆发增长一样。

最后，借用我在标题中隐含的那个思考：AI 确实深不可测，但我们对它的追求也应该有所克制。技术进步固然令人振奋，但技术本身并不是目的。在追求更强大的模型的同时，我们也应该思考：这些技术到底为人类带来了什么？它们是否真正解决了我们的问题，创造了新的价值？

陀思妥耶夫斯基在《地下室手记》中曾写道：「人是不会仅仅为了达到目的而生活的，他会为了生活本身而活着。」

同样，AI的发展也不应仅仅为了技术而技术，而应该回归到为人类创造价值的本质上来。

在这个意义上，DeepSeek的成功只是一个开始，而非终点。真正的挑战还在后面：如何将这些技术转化为改变世界的产品和服务，如何确保技术发展的方向与人类福祉相一致。这才是我们每个人，无论是技术开发者还是产品设计师，都应该思考的问题。

然而我呢？半年前我还怀抱着自己的幻想，我自以为掌握了很多别人不知道的 know how，我知道很多脏技术和小技巧。怀抱着这些幻想，沉溺在懒惰和摆烂里面。正如我所说，我自认为我完成了解构，但是不想去构建，更不愿意磨砺自己的技术。我一次次用《涅朵奇卡》提醒自己，结果还是中了傲慢的蛊惑。

不过还好，今年通过几次面试看到了自己的缺陷，让自己清醒了很多。

所以，放弃幻想，保持战斗吧。学术和开发的社区中，我无数次看到自己想做的 idea 被别人用各种诡异的方式实现，一度，给我确实带来了巨大的冲击和动摇。不过，我还是要坚持做自己喜欢的事情，明知不可为而为之，这是我的勇气。我渴望成为英雄，我也知道自己不可能成为英雄，但是我还是要继续写代码，要继续写作和创作。如同大门的《紫川》书评中所言：「天地无用是英雄，人间正道是沧桑」。

我的路还长，但是我醒过来的时候，我知道往哪里走了。

References

https://cloudherd.chivier.site/landing-ai-application-how/ ↩

Think

#ai

深深梦几许，猎猎青云中 —— DeepSeek 和无意义的变革

http://blog.chivier.site/2025-03-15/2025/深深梦几许，猎猎青云中-——-DeepSeek-和无意义的变革/

Author

Chivier Humber

Posted on

March 15, 2025

Licensed under

Lanno 正式版本发布 Previous

大道求索，无问西东 - 从 DeepSeek 看 MLSys 的 2025 Next