2 月 18 日——埃隆·马斯克的人工智能初创公司 xAI 推出了其聊天机器人的最新版本 Grok-3,希望与微软支持的中国人工智能公司 DeepSeek (MSFT.O)竞争。
Grok-3 的首次亮相正值人工智能军备竞赛的关键时刻,就在 DeepSeek 推出其强大的开源模型几天后,马斯克正积极扩大 xAI 的影响力。
该聊天机器人正在立即向马斯克旗下的社交媒体平台 X 的 Premium+ 订阅用户推出。xAI 还推出了一个新的订阅级别 SuperGrok,用户可以通过其移动应用程序和 Grok.com 网站访问聊天机器人。
马斯克周一晚些时候与三名 xAI 工程师一起进行直播时表示:“Grok-3 各方面都独树一帜”,并补充说该模型的表现优于其前身 Grok-2。
“Grok-3 的推出让 xAI 重新加入开源 LLM 领导地位的竞争中。它在某些基准测试中的表现优于目前最先进的模型,这使得 xAI 再次具有重要意义”,DA Davidson 董事总经理 Gil Luria 表示。
随着人工智能竞争加剧,xAI 正在加速发展,打开新标签页该公司通过筹集数十亿美元来增强其数据中心的训练能力,以训练更先进的模型。该公司位于田纳西州孟菲斯的超级计算机集群被称为“Colossus”,被誉为世界上最大的超级计算机集群。
然而,卢里亚表示,Grok-2 模型的改进似乎太小,不足以证明花费大量资源进行训练是合理的。
最新版本推出了一个名为 DeepSearch 的智能搜索引擎,xAI 将其描述为一个基于推理的聊天机器人,能够在响应用户查询时表达其思维过程。
该工具在直播中演示,提供研究、头脑风暴和数据分析的功能。
什么是 Grok 3?
Grok 3 是 xAI 的最新 AI 模型,定位为 OpenAI 的 o1 和 DeepSeek 的 R1 的直接竞争对手。xAI 团队声称它比 Grok 2 强大 10 到 15 倍,并且根据演示中提供的基准,它实际上可能与市场上最好的模型相媲美。
推理模型有何不同?
如果您使用过 ChatGPT、Claude 或 Gemini,那么您就会熟悉大多数 AI 模型的工作方式:您提出一个问题,它们会生成一个答案,就这样。
Grok 3 等推理模型采用了不同的方法。它们不会立即给出答案,而是逐步分解问题,展示中间思路,甚至在给出最终答案之前完善输出。这使得它们在数学、编码和现实世界问题解决等任务中特别有用。
Grok 3 迷你
并非每个任务都需要 Grok 3 的全面推理。Grok 3 mini 针对速度和更低的计算使用率进行了优化,同时仍保留了 Grok 3 的推理能力。
对于想要在使用 API 时优化代币使用支出的开发人员来说,Grok 3 mini 特别有用。
我们还可以切换到 Grok 3 Mini,以便在聊天界面获得更快的响应。根据基准测试,它不会处理太多问题。
Grok 3 思考模式
思考模式是一种可选设置,可激活 Grok 3 的多步骤推理过程。它不会直接跳到答案,而是将问题分解为更小的步骤,评估不同的解决方案,并在输出最终结果之前完善其响应。
此模式对于解决复杂问题、数学证明、编码挑战和基于逻辑的任务特别有用。它模仿人类的结构化思维,非常适合推理质量比速度更重要的情况。
据我所知,xAI 将 Grok 3 定位为推理模型和通用模型。当关闭思考模式时,它的行为更像 GPT-4o 或Claude 3.5 Sonnet — 快速、对话性强且针对一般用途进行了优化。但当激活思考模式时,它会切换到推理模式,逐步分解复杂问题。
从基准测试来看,这种混合方法变得更加清晰。xAI 不仅将 Grok 3 与 OpenAI 的 O1 或 DeepSeek R1 等推理模型进行了比较,还将其与 GPT-4o、DeepSeek-V3 和 Claude 3.5 Sonnet 等通用模型进行了测试。这表明他们希望它在两个类别中都具有竞争力,而不是仅限于一个类别。
Grok 3 大脑模式
大脑模式是 Grok 3 的高性能设置,可分配额外的计算资源来处理艰巨的任务。
启用后,Grok 3 处理查询所需的时间更长,但可提供更高的准确性、更深入的洞察和更详细的响应。此模式特别适用于科学研究、多层 AI 任务和高度复杂的问题解决场景,在这些场景中,标准推理可能不够用。
Grok 3 深度搜索
DeepSearch 是 xAI 的内置研究工具,允许 Grok 3 在生成答案之前浏览网页、验证来源并综合实时信息。
与依赖预训练数据的标准 AI 模型不同,DeepSearch 会收集新鲜信息,因此非常适合新闻、市场趋势、技术研究和事实核查。此模式将 Grok 3 定位为 Gemini 的 Deep Research 和OpenAI 的 Deep Research的竞争对手。
