公司新闻资讯 - 新闻资讯 - 营销管理咨询_品牌策划_深圳营销咨询

新闻资讯

More>>

公司新闻资讯

当前位置：首页 > 新闻资讯 > 公司新闻资讯

DeepSeek创始人梁文峰采访记录，近距离感受其思想

发布：深圳邦道日期：2025-02-12 人气：608

2024年7月DeepSeek创始人梁文峰采访记录，近距离感受其思想及理念

以下是完整采访，采访内容翻译自2024年7月暗涌记者对DeepSeek创始人梁文锋的独家采访。就在该公司凭借其开源V2模型一举成名后不久，与他展开了这场对话，揭秘一家中国创业公司如何敢于超越科技巨头，重塑创新规则。　　

价格战的第一枪是如何打响的？ 　　

记者（采访者）： DeepSeek V2模型发布后，迅速引发了大模型行业的激烈价格战。有人认为你们是市场的颠覆者。　　

梁文峰（DeepSeek创始人）：我们从未想过要成为颠覆者，这一切只是意外发生的。　　

记者：这个结果让你意外吗？　　

梁文峰：非常意外。我们没想到定价会是如此敏感的问题。我们只是按照自己的节奏，计算成本后合理定价。我们的原则是不亏本销售，也不追求过高利润。目前的定价仅在成本之上保留了一定的利润空间。　　

记者：五天后，智谱AI跟进降价，随后字节跳动、阿里巴巴、百度和腾讯也加入了这场价格战。　　

梁文峰：智谱AI只是降低了入门级产品的价格，而他们的旗舰模型仍然很贵。真正匹配我们旗舰产品价格的是字节跳动，这对其他公司形成了压力。由于大公司的大模型成本远高于我们，我们从未想过有人会愿意亏本运营。但最终，市场竟然回到了互联网时代的补贴竞争逻辑。　　

记者：站在外部观察，降价似乎是一种典型的互联网时代竞争策略，目的是抢占用户。　　

梁文峰：抢用户并不是我们的主要目标。我们降价的原因有两个：首先，在探索下一代模型架构的过程中，我们的成本下降了；其次，我们认为AI和API服务应该是人人都能负担得起、随时可用的。　　

记者：在此之前，大多数中国公司只是复制Llama的模型架构来开发应用。为什么你们选择专注于模型结构本身？　　

梁文峰：如果目标是做应用，采用Llama的架构快速上线产品是合理的选择。但我们的目标是AGI（通用人工智能），这要求我们探索新的模型架构，以在有限的资源下实现更强的能力。这是规模化发展的基础性研究。除了架构，我们还深入研究了数据筛选和类人推理能力，这些都在我们的模型中有所体现。而且，Llama的训练效率和推理成本相比全球最前沿的标准，至少落后两代。　　

记者：这两代的差距主要体现在哪里？　　

梁文峰：首先是训练效率的差距。我们估算，中国目前最好的模型，在算力相同的情况下，可能需要两倍的计算资源才能达到全球顶尖模型的水平。这是由于架构和训练策略的差距。其次是数据利用效率，中国的模型大约只有全球最优水平的一半，也就是说，同样的结果需要两倍的数据和计算量。两者叠加，意味着整体资源消耗是四倍。我们的目标是不断缩小这个差距。　　

记者：大多数中国公司都会同时布局模型和应用，为什么DeepSeek只专注于研究？　　

梁文峰：因为我们认为当下最重要的，是参与全球科技创新。长期以来，中国企业习惯于利用海外的技术创新，并通过应用层面进行商业化，但这种模式是不可持续的。这一次，我们的目标不是快速盈利，而是推动技术前沿的发展，从根本上促进整个生态的成长。　　

记者：互联网和移动互联网时代的普遍共识是，美国擅长创新，而中国擅长应用落地。　　

梁文峰：我们认为，随着经济的发展，中国必须逐步从技术的受益者转变为贡献者，而不是一直依赖别人的成果。在过去30年的IT革命中，我们几乎没有真正参与核心技术创新。　　我们习惯了摩尔定律“从天而降”——只需等上18个月，就能获得更先进的硬件和软件。同样，我们对大模型的“规模定律”也是如此。但事实上，这些技术进步是西方科技社区几代人持续努力的结果。由于我们长期未能深度参与这一进程，反而渐渐忽视了其真正的价值。　　真正的差距在于原创性，而不仅仅是时间　　

记者：为什么DeepSeek V2会让硅谷许多人感到意外？　　

梁文峰：在美国，每天都有各种创新出现，从这个角度看，我们的突破并不算特别。但他们惊讶的是，一家中国公司不仅仅是跟随者，而是以创新者的身份加入了他们的竞争。这与大多数中国企业习惯的模式完全不同。　　

记者：但在中国的现实环境下，单纯追求创新似乎是一种奢侈。大模型研发本身极其烧钱，不是每家公司都能在商业化之前只专注于研究。　　

梁文峰：创新当然成本高昂，而过去我们倾向于采用现成技术，主要是因为中国的发展阶段所限。但今天，中国的经济规模以及字节跳动、腾讯等巨头的盈利能力，已经具有全球影响力。我们真正缺乏的不是资金，而是信心，以及组织高水平人才进行有效创新的能力。　　

记者：为什么即使是资金充足的中国科技巨头，也往往更重视快速商业化？　　梁文峰：过去30年，我们更关注利润，而不是创新。但创新不仅仅是商业驱动的，它需要好奇心和创造的野心。我们被过去的习惯束缚住了，但这只是一个阶段。　　

记者：但DeepSeek毕竟是一家企业，而不是非营利的研究机构。如果你们进行创新，并且像5月发布的MLA架构那样开源突破性成果，竞争对手岂不是很快就能复制？你们的护城河在哪里？　　

梁文峰：在颠覆性技术领域，封闭式的护城河并不持久。即便是OpenAI的闭源模式，也无法阻止其他公司迎头赶上。　　因此，我们真正的护城河在于团队的成长——积累技术Know-how，培养创新文化。开源和发表论文不会带来重大损失。对于技术人员来说，被同行追随本身就是一种成就。开源不仅仅是商业策略，更是一种文化。回馈社区是一种荣誉，同时也能吸引更多优秀人才。　　记者：你怎么看待市场派的观点，比如朱啸虎的立场（他主张AI公司应优先商业化，而不是进行基础研究，并认为AGI是不切实际的）？　　

梁文峰：朱啸虎的逻辑适用于短期盈利项目，但美国最赚钱的公司，往往是那些依靠长期研发建立技术壁垒的科技巨头。　　

记者：但在AI领域，单纯的技术领先还不够。DeepSeek在更长远的层面上，究竟押注的是什么？　　

梁文峰：我们认为，中国的AI不能永远做跟随者。人们常说，中国AI比美国落后一到两年，但真正的差距在于“原创”与“模仿”。如果不改变这一点，中国永远只能追赶别人，而不是引领方向。有些探索是无法回避的。　　英伟达的成功并不仅仅是自身努力的结果，而是西方科技生态系统长期合作，共同规划下一代技术路线的成果。中国也需要类似的生态体系。国内许多芯片失败，不是因为资金不足，而是因为缺乏支撑性技术社区，仅依赖二手信息。

必须有人走在前沿。 　　更多资金 ≠ 更多创新 　　

记者： DeepSeek现在给人的感觉很像OpenAI早期的理想主义阶段，而且你们坚持开源。未来会像OpenAI或Mistral那样，转向闭源吗？　　

梁文峰：我们不会闭源。我们认为，建立一个强大的技术生态，比封闭式的商业模式更重要。　　

记者：有没有融资计划？有媒体报道，焕放【1】计划将DeepSeek拆分上市。硅谷的AI初创公司最终都会与大公司结盟，你们会跟随这种趋势吗？　　

梁文峰：目前没有短期融资计划。我们真正的挑战从来不是资金，而是高端芯片的出口禁令。　　

记者：许多人认为，AGI的发展需要高调的合作和行业影响力，而不像量化投资那样适合低调运作。你认同这种观点吗？　　

梁文峰：更多的投资并不一定能带来更多的创新。如果资本堆砌就能推动技术突破，那大公司早就垄断了所有创新。　　

记者： DeepSeek不做应用，是因为缺乏运营能力吗？　　

梁文峰：我们认为，当前阶段是技术创新期，而不是应用爆发期。从长远来看，我们希望建立一个生态系统，让行业直接使用我们的技术和成果，其他公司基于我们的模型开发B2B/B2C服务，而我们专注于基础研究。如果产业链完整，我们无需亲自做应用。当然，如果有必要，我们完全有能力去做，但研究和创新始终是我们的核心优先级。　　

记者：为什么客户会选择DeepSeek的API，而不是更大的玩家？　　

梁文峰：未来的世界很可能是一个高度分工协作的世界。基础AI模型需要持续创新，而大公司也有自身的局限，并不一定最适合承担这一角色。　　

记者：但仅凭技术，真的能拉开足够大的竞争差距吗？你之前也提到过，并没有绝对的“秘密”。　　

梁文峰：没有秘密，但复制需要时间和成本。英伟达的GPU没有什么神秘之处，但要赶上他们，就必须重建团队、追赶下一代技术——这才是真正的护城河。　　记者：你们降价后，字节跳动是第一家跟进的公司，说明他们感受到了竞争压力。你如何看待创业公司和大厂之间的新竞争格局？　　

梁文峰：说实话，我们并不太在意。降价只是顺手而为。提供云服务并不是我们的核心目标，我们的目标是实现AGI。目前，我们还没有看到真正突破性的解决方案。大公司虽然有用户，但它们的“现金牛”业务也束缚了自身，给了创业公司颠覆它们的机会。　　

记者：你觉得中国目前的六家主要AI创业公司，最终结局会如何？　　

梁文峰：可能最终会剩下2-3家。目前大家都在“烧钱”，但能活下来的，一定是那些战略清晰、执行力强的公司。其他的可能会转型。价值不会消失，只是会以不同的形式存在。　　

记者：你的竞争哲学是什么？　　

梁文峰：我更关注一项技术是否提升了社会效率，以及我们是否能在行业价值链中找到自己的优势。只要最终目标是提升效率，就是有意义的。很多竞争都是阶段性的，过于纠结于短期竞争，反而容易迷失方向。　　V2模型：完全由本土人才打造　　

记者： OpenAI前政策主管、Anthropic联合创始人Jack Clark曾提到，DeepSeek吸引了一批“难以捉摸的天才”，他们打造了DeepSeek V2。这些人有什么特点？　　

梁文峰：其实没有什么“难以捉摸的天才”，只是来自顶尖高校的应届生、博士生（甚至是四五年级的实习生），以及一些有几年经验的年轻人。　　

记者：许多AI大厂热衷于全球招募顶级人才，有人认为全球前50的AI科学家，很难会在中国的公司任职。你的团队来自哪里？　　

梁文峰： DeepSeek V2完全是由本土人才打造的。目前，全球前50的AI人才可能确实不在中国，但我们希望自己培养出这样的团队。　　

记者： MLA架构创新是怎么诞生的？听说最初是某个年轻研究员的个人兴趣？　　梁文峰：他在总结主流Attention架构的关键演化规律后，突然灵感迸发，设计出了一种新的替代方案。但从想法到现实，是一个漫长的过程。我们组建了团队，花了几个月时间验证它的可行性。　　

记者：这种自发的创新似乎和你们扁平化的组织结构有关。在焕放，你们避免了自上而下的管理。但AGI是一个高不确定性的前沿探索，你们会不会有更多的管理干预？　　

梁文峰： DeepSeek依然是完全自下而上的。我们也不预先设定角色，分工是自然形成的。每个人都带着自己的经验和想法，不需要被推动。当他们遇到挑战时，会自发地拉上别人讨论。不过，一旦某个想法被证明有潜力，我们就会从上层投入资源，推动它的发展。　　

记者：我们听说 DeepSeek 在计算资源和人员调配方面非常灵活。　　

梁文锋：我们的计算资源和团队成员的使用没有限制。如果有人有想法，他们可以随时调用我们的训练集群，无需审批。此外，由于我们没有严格的层级架构或部门壁垒，只要彼此感兴趣，团队成员可以自由协作。　　

记者：这种宽松的管理方式依赖于招聘极具驱动力的人才。据说 DeepSeek 擅长通过非传统标准识别卓越人才。　　

梁文锋：我们的招聘标准一直基于热情和好奇心。我们的团队成员背景各异，充满个性和趣味性，他们对研究的渴望远超对金钱的关注。　　

记者：Transformer 诞生于 Google AI Lab，ChatGPT 来自 OpenAI。在你看来，大公司 AI 实验室与创业公司在创新方面有何不同？　　

梁文锋：无论是 Google 研究院、OpenAI，还是国内科技巨头的 AI 实验室，它们都提供了重要价值。OpenAI 之所以能最终取得突破，也有一定的历史偶然性。　　

记者：所以你认为创新主要靠运气？你们的办公室设计中有会议室，两侧的门可以轻松打开。你的同事们提到，这种设计让“偶然相遇”成为可能。这让我想起 Transformer 的诞生——当时一位路过的研究员无意间听到讨论，帮助将其发展成了通用架构。　　

梁文锋：我认为，创新首先是一种信念。为什么硅谷的创新能力强？因为他们敢于尝试。ChatGPT 出现时，中国在前沿研究上信心不足。从投资人到大公司，很多人认为差距太大，转而专注于应用。但创新需要信心，而年轻人往往更具信心。　　

记者：与其他 AI 公司积极寻求融资和媒体关注不同，DeepSeek 一直相对低调。你如何确保 DeepSeek 成为 AI 人才的首选？　　

梁文锋：因为我们在解决最难的问题。对于顶尖人才来说，最具吸引力的就是挑战世界上最困难的问题。事实上，中国的顶尖人才经常被低估，因为硬核创新稀缺，他们很少得到认可。而我们正好提供了他们渴望的舞台。　　

记者：最近 OpenAI 的发布会上并未推出 GPT-5，许多人认为行业的技术增长曲线正在放缓，一些人开始质疑 Scaling Law【规模法则】。你怎么看？　

梁文锋：我们仍然保持乐观。行业的进展依然符合预期。OpenAI 并非神一般的存在，他们不可能永远领先。　　

记者：你认为实现 AGI 需要多长时间？在 V2 之前，你们发布了代码/数学模型，并从稠密（Dense）架构转向 MoE【混合专家模型】。你们的路线图是什么？　　

梁文锋：可能是两年，五年，或者十年——但一定会在我们这一代人有生之年发生。至于我们的路线图，即便在公司内部也没有统一结论。但我们正在下注以下三个方向：数学与代码 ——它们是 AGI 的天然试验场，就像围棋一样，是封闭且可验证的系统，自学习有可能孕育高度智能。多模态 ——让 AI 直接接触现实世界进行学习。自然语言 ——它是类人智能的基石。　　我们对一切可能性保持开放态度。　　

记者：你认为大模型的终局形态会是什么？　　

梁文锋：未来会有专门提供基础模型和服务的公司，形成一个长产业链的专业分工体系。更多公司将在这些基础之上，为社会的多元需求提供解决方案。　　所有策略都是上一代的产物　　

记者：过去一年，中国的大模型创业格局发生了许多变化。例如，曾经高调入局的王慧文【美团联合创始人】中途退出，而新晋选手正在逐步形成差异化。　　梁文锋：王慧文承担了所有损失，让其他人全身而退。他做出了对自己最不利、但对大家最有利的决定。我很敬佩他的担当。　　

记者：你目前最关注的是什么？　　

梁文锋：我最关注的是下一代大模型的研究，因为还有很多问题没有解决。　　记者：许多 AI 创业公司坚持模型研发和应用并重，因为技术领导力并非永久优势。为什么 DeepSeek 仍然坚定地专注于研究？是因为你们的模型还不够强吗？　　梁文锋：所有策略都是上一代的产物，未来未必仍然适用。用互联网时代的商业逻辑讨论 AI 的未来盈利模式，就像把腾讯早期的发展轨迹拿来对比通用电气或可口可乐——这就像“刻舟求剑”，是落后的思维方式。　　

记者：幻方【量化投资公司】拥有强大的技术和创新基因，发展轨迹也相对顺利。这是否让你对技术驱动的创新更有信心？　　

梁文锋：幻方在一定程度上增强了我们对技术驱动创新的信心，但它的成长并非一路平坦。我们经历了漫长的积累。人们只看到了 2015 年之后的爆发，但实际上，我们已经沉淀了 16 年。　　

记者：回到原创性创新的问题——在经济放缓、资本降温的背景下，这是否会抑制颠覆性的研发？　　

梁文锋：不一定。中国产业格局的重塑将越来越依赖深度科技创新。随着快速获利的机会减少，更多人会转向真正的创新。　　

记者：所以你对此持乐观态度？　　

梁文锋：我在 1980 年代成长于广东的一个五线城市，父亲是一名小学教师。上世纪 90 年代，广东有很多赚钱的机会，很多家长来我家争论，说读书没用。但回头看，现在的观点已经变了。赚钱不再像过去那么容易——甚至连开出租车都不再是一个可行的选择。仅仅一代人的时间，环境已经发生了巨大变化。　　未来，硬核创新只会越来越多。现在大家对它的理解还不够深，因为整个社会仍在从现实中学习。当社会开始认可深度科技创新者的成功时，集体认知自然会改变。我们需要的，只是更多真实的成功案例，以及时间让这一过程发生。

上一条：黄仁勋：人形机器人万亿市场规模
下一条：沃伦·巴菲特：2024年投资者大会实录

【返回列表】

邦道集团