马斯克XAI公司旗下产品Grok 3于北京时间2月18日午间发布。以下是关于其发布内容的一些关键点:
访问权:Grok 3 首先向 X 的 Premium+ 订阅者开放,紧接着推出了新的订阅计划 "SuperGrok",提供更高级的功能和更早的访问权。
性能提升:Grok 3 在数学、科学和编码基准测试中超越了 Alphabet 的 Google Gemini、DeepSeek 的 V3 模型、Anthropic 的 Claude 和 OpenAI 的 GPT-4o。
计算能力:Grok 3 的计算能力是其前代 Grok 2 的十倍以上,利用了位于孟菲斯数据中心的约 200,000 个 GPU 来进行训练。
模型家族:Grok 3 不是单一模型,而是一系列模型,包括 Grok 3 Reasoning 和 Grok 3 mini Reasoning,专注于更复杂的推理任务。
Grok 3功能:
语音模式:计划在发布后一周内增加语音模式,让 Grok 模型能够进行语音交互。
图像生成:SuperGrok 订阅者将获得无限的图像生成功能。
DeepSearch:提供对更广泛的互联网内容的深度搜索。
Tesla 集成:Grok 3 将支持与 Tesla 车辆的实时信息查询。
订阅模式:新的 "SuperGrok" 订阅每月 30 美元或每年 300 美元,提供包括无限图像生成、增强推理能力和 DeepSearch 查询在内的高级功能。
技术细节:Grok 3 的开发利用了 Colossus 超级计算机,训练时使用了 100,000 Nvidia H100 GPU。训练过程涉及改进的数据集、合成数据、模型自校正和强化学习技术。
链式思维推理:Grok 3 将支持更复杂的推理能力,能够按步骤处理复杂任务,类似于人类的认知过程。这将显著改善其处理复杂查询和提供逻辑连贯回答的能力。
多模态数据处理:该模型将能够整合和处理文本、图像等多种类型的数据,增强其理解和生成内容的能力。
语言理解和生成:Grok 3 在语言理解和生成方面会有提升,能够更自然地进行对话并支持多语言处理。
语音模式:新增的语音模式将扩展用户的交互方式,使其能够理解语气和情感,并支持音频转录成文本。
图像生成能力增强:图像生成将更加精细,提供更高质量的输出。
“Unhinged”模式:可能引入一个更自由或创意性的回答模式,允许更不受限制的互动。
计算能力:据称计算能力是 Grok 2 的十倍以上,预计将使其成为全球最强大的 AI 之一。
推理 API:在推出后不久,将推出推理 API,供开发者使用。
开源:在 Grok 3 完全推出后,Grok-2 将开源,这可能为开发者提供更多机会来探索和扩展其功能。
DeepSearch:支持深度搜索功能,可能允许用户在更广泛的互联网范围内进行更精确的搜索。
Grok 3的评价:
Grok 3 被描述为一个非常强大的 AI 模型,根据目前的评价和测试结果,它在实证基准测试中一些表现出色,甚至超越了知名竞争对手。以下是一些评价要点:
推理能力:Grok 3 被认为具备非常强大的推理能力,在测试中其表现超过了已知的任何模型。这种推理能力被评价为“强到让人感到害怕”,表明其在处理复杂任务和提出创新解决方案方面的能力。
基准测试表现:在数学推理、科学知识问答(如 GPQA)和代码编写等多个领域的基准测试中,Grok 3 的表现优于 DeepSeek-v3、GPT-4o、Gemini-2 pro 等模型。在测试中,如 AIME'24 和 AIME 2025,Grok 3 也取得了显着的成绩。
计算资源和训练:Grok 3 使用训练了约 10 万张 Nvidia H100 GPU 进行,这使得其计算能力是 Grok 2 的十倍。这种强大的基础设施支持了其在推理、编程能力以及文本和图像分析等多态模式功能方面的提升。
用户反馈和市场评价:在 X 平台上的讨论中,有用户认为 Grok 3 是当前最先进的模型之一,尤其是代码能力和推理性能得到了高度评价。然而,也有怀疑一些的声音,认为其提升可能不如宣传中那么显着,尤其是在与其他大型模型的比较中。
问题:尽管 Grok 3 受到了高度评价,但也提到它需要经过严格潜在的红队测试(red teaming)来检查潜在的安全和伦理问题,特别是考虑到其计算能力可能已经超过了某些监管强度。
