更新后的苹果的 AI 模型仍然落后于 OpenAI 的 GPT-4o

在 WWDC 2025 上，苹果宣布了多项面向开发者和消费者的Apple Intelligence相关更新。借助全新的 Foundation Models 框架，开发者现在可以将 AI 体验引入其应用程序，这些应用程序可以离线运行，保护隐私且免费使用。

Foundation Models 框架基于苹果自主研发的 AI 模型构建。苹果还发布了新一代语言基础模型。据苹果公司介绍，这些更新的模型速度更快、效率更高，工具使用体验得到改进，推理能力更强，支持图像和文本输入的多模式，并支持 15 种语言。

Apple Intelligence 包含两个基础模型：

使用 Apple Silicon 在设备上运行的 30 亿参数模型。

针对私有云计算优化的基于服务器的专家混合模型。

苹果指出，设备上的 3B 语言模型并非设计为通用聊天机器人。相反，它旨在执行与文本相关的任务，例如摘要、实体提取、文本理解、细化、简短对话和创意内容生成等。

最大的问题是，苹果的模型与市场上其他领先模型相比表现如何。苹果没有使用标准的人工智能基准，而是分享了其内部对基础语言和推理能力的评估结果。

根据苹果基于文本的评估，其设备上的 3B 模型在英语方面的表现优于稍大的 Qwen-2.5-3B，并与更大的 Qwen-3-4B 和 Gemma-3-4B 相媲美。其基于服务器的模型表现略优于 Llama-4-Scout，但与 Qwen-3-235B 和 OpenAI 专有的 GPT-4o 相比略逊一筹。

在涉及图像输入的评估中，苹果的设备端模型优于 InternVL 和 Qwen，并且与 Gemma 不相上下，服务器模型虽然优于 Qwen-2.5-VL，但与 Llama-4-Scout 和 GPT-4o 相比，其表现较差。

这些结果凸显了苹果在基础人工智能能力方面仍任重道远。苹果似乎将其模型与 GPT-4o 进行了比较，以使其性能看起来相对不错。如果将其结果与 OpenAI 最新的 O 系列模型或Google的 Gemini 2.5 Pro 进行比较，差距可能会更大。