九天前,苹果公司不引人注目地推出了新一代 Mac Studio,配备 M3 Ultra 和 M4 Max 两种处理器配置。M3 Ultra 型号内置了 32 核中央处理器以及 80 核图形处理器,最大能够支持 512GB 的共享内存容量。官方表示该版本能够支持高达 6000 亿参数的 LLM,这意味着即便在家中也能充分体验 DeepSeek R1 的全部性能。
这引起了众多人的注意,他们纷纷停留观看,并提出了不少疑问:在人工智能大模型飞速发展的当下,选择购买 Mac Studio 是否比单独购置一块高性能 GPU 更加经济实惠?在人工智能相关任务的实际运行中,它的性能是否会超越其他同类的高端个人电脑?
最近,不少国外网友在收到新设备后,纷纷开始测试模式。硅谷咨询机构 Creative Strategies 的技术分析师 Max Weinbach 首次体验了 256GB 版本的 Mac Studio,对 QwQ 32B、Llama 8B、Gemma2 9B 等模型进行了检测,同时公布了各种设备上的测试结果,并进行了比较分析。另外还有 YouTube 主播 Dave Lee 直接将硬件全部升级,在一台 512 GB 的 Mac Studio 上全力测试 DeepSeek R1,那么,Mac Studio 在人工智能领域的实际运行效果究竟怎样?让我们接着往下看。
话不多说,可以先看结论:
购置了 32 个核心的 GPU,配备了 M3 Ultra 处理器的最新款 Mac Studio
先来了解 Max Weinbach 的测试过程与使用体验。自 2020 年买入第一台 M1 MacBook Pro 后,Max Weinbach 就成为 Apple Silicon 的坚定支持者。从 M1 MacBook Pro 升级到 M1 Max,再换到 M3 Max,他最在意的是内存表现。这是由于 Chrome 浏览器消耗大量内存所致,同时他坚持认为,内存始终是决定电脑运行速度的首要因素。
挑选 M3 Max 的时候,他特意选了 128GB 内存,原因是 Llama.cpp 和 MLX 这类 AI 框架正变得非常普遍,它们会迅速消耗掉所有可用内存。不过坦白讲,如今 AI 模型体积越来越大,自动化流程也愈发复杂,128GB 内存在实际应用中已经远远不够,显得非常紧张。
配备 M3 Ultra 芯片的 Mac Studio 让他切实体验到性能的巨大提升。对于 Max Weinbach 而言,这属于为 AI 研发人员设计的高端设备:拥有强大的 GPU,最高可配置 512GB 的统一内存(LPDDR5x),以及 819GB/s 的极高内存传输速率,堪称 AI 研发人员的理想配置。
马克斯·韦恩巴赫指出,人工智能领域的从业者几乎无一例外地选用苹果电脑,甚至可以戏言——各个顶尖的科研机构以及最优秀的程序员们的工作设置里,苹果机早就属于基础配置。
因此,在新型 Mac Studio 面世之后,他立刻购入了一台,详细规格如下:
马克斯·韦恩巴赫明确表示,M3 Ultra 是他使用过的速度最快的设备,在人工智能应用方面的性能甚至超过了他的顶级游戏主机。他的游戏主机配置相当出色——搭载英特尔i9 13900K处理器,配备RTX 5090显卡,拥有64GB DDR5内存以及2TB NVMe固态硬盘。
为了证明这个观点,他针对 M3 Ultra、M3 Max 以及个人电脑,执行了 Geekbench AI 的性能评估。
Geekbench AI 会先以完整精度排序,再按半精度排序,最后以量化模式排序。
结果如何?直接来看数据:
运行 LLM,为什么“吃”内存?
在深入探讨 M3 Ultra Mac Studio 运行 LLM 的实际效果之前,有必要先说明 LLM 为何需要庞大的内存容量,如果对此已有认知,可以略过此段,此处旨在阐明内存的关键作用。
大型语言模型在运行时会耗费大量存储空间,其中部分资源消耗存在改进空间
1. 模型本身的大小
大型语言模型一般采用半精度浮点格式来保存数据,即每个参数需要两个字节。由此推算,确定模型体积的方法非常直接:将参数总数乘以二,得出的结果就是模型的总体积,单位为吉字节。
以 Llama 3.1 8B(八十亿参数量)为例,它大约需要十六GB的内存空间,而 DeepSeek R1 这种大型模型采用的是 FP8 格式(每个参数仅用一字节表示),因此六千八百五十亿参数(六百八十五B)的大模型,其内存需求大约为六百八十五GB。目前最出色的开源人工智能模型是阿里巴巴研发的 QwQ 32B,其性能与 DeepSeek R1 相当,不分上下!该模型运用 BF16(16 位浮点数)技术,整个模型的大小约为 64GB。
在 LLM 运作期间,若将模型进行四比特压缩,内存占用能缩小一半或者四成,具体数值依据模型构造而定。比如,含有八十亿参数的模型在四比特压缩后大概需要四吉字节,QwQ 三百二十亿参数的模型大约消耗二十吉字节,而 DeepSeek R1 仍然需要三百五十吉字节的空间。当然,还存在更为深入的 1.5比特或2比特的精简方法,不过这类方法往往会导致模型性能减弱,除了用于展示目的,基本上不具备实际用途。针对 DeepSeek R1这类规模巨大的模型而言,即便采用2比特的压缩技术,所需存储空间也能压缩至250GB,即便如此,这个数值依然相当可观。即便是 DeepSeek R1 的最小型号,内存需求也达到 180GB,但这并非终点。
2. 上下文窗口
内存消耗的另一个重要原因是上下文窗口,这指的是 LLM 在处理信息时所依据的记忆区间。具体而言,模型能够同时容纳的文本量,直接影响其生成回复时的情境把握程度。当前,众多模型的上下文范围已拓展至 128K 个符号单位,然而,普通用户在操作时,实际调用的数量要小得多,大约 32K 个符号单位便已足够(GPT Plus 同样是 32K)。这些符号单位必须保存在 KV 缓存中,该缓存负责记录模型输入的所有符号单位,以便其能够生成相应的输出结果。
客户端部署大语言模型最普遍选用的工具是 llama.cpp,该工具会同时载入全部的情境记忆体与模型参数,以 QwQ 32B 为例,其基础体量仅19GB,不过载入全部数据后内存消耗会增至五十余GB!这种做法并非缺陷,针对多种实际用途,这种方式是恰当的选择
然而,Apple 的 MLX 框架运用了一种更为灵便的方法:它仅在必要的情况下才会动用系统内存来缓存 KV 数据。因此,在 QwQ 32B 首次载入时仅消耗 19GB 空间,之后会根据实际应用逐步增加内存使用量,最终当整个对话记录被完全填充时,其内存占用会增至 51GB。针对内存容量极大的 M3 Ultra 和 M4 Max 类型芯片,这种机制有助于它们运行精度更高的模型。比如,QwQ 32B 在采用原生 BF16 精度时,全部上下文窗口载入后,所需内存量会超过 180GB。换言之,一个 32B 级别的模型,仅是运行就需要消耗 180GB 内存,这些大型模型的实际状况是:内存容量有多大,它们就能使用多少。
接下来的发展将是:上下文范围会持续扩展,因此大内存才算是极具价值的“稳定配置”。诸如 Qwen 和 Grok 3 的模型,其上下文区间现已达到百万 tokens级别,并且 Grok 3 后续打算将源代码公布出来。大模型的规模会受到扩展定律的约束,不过更宽广的语境区间对实际运用更有价值,这表明必须配备充足的存储空间。当前部分检索增强生成技术能够略微降低存储压力,然而从根本角度出发,语境区间的范围才是决定性因素。若要同时运用大型模型与极广的语境区间?512GB的存储容量是基础配置,或许还需要进一步提升。
此外,Mac Studio 可借助 Thunderbolt 5 同时接入多台设备,并借助苹果研发的快速传输路径执行分布式运算,达成 1TB 以上的内存共享,这个议题待今后再行探讨。
总体而言,尽管 LLM 可在手机或各类笔记本电脑上执行,确实能够运行,但若要切实高效地应用于实际工作场景,开展模型检验,乃至充当 AI 操作平台,则务必配备足够容量的 GPU 显存。
现阶段,Mac Studio配备M3 Ultra芯片,是仅有的能实现该功能的设备。
当然,直接购买 H100 或 AMD Instinct 级别的显卡,在推理速度上确实会更快,不过这些设备的价格,至少是 Mac Studio 的 6 到 80 倍,而且很多人最终还是要将模型部署在云端,因此对于本地开发者而言,这种配置的性价比并不理想。
关于培养大型模型,这属于一个截然不同的挑战领域。专门研究在各种硬件上部署大型模型的实验室 Exo Labs 目前正在构建一个使用 Apple Silicon 的 LLM 训练系统,他们无疑具备更高的专业水准,今后或许会透露更多关于训练所需存储容量的信息。但最终可以确定的是,存储容量越高,使用感受就越是理想。
LLM 性能实测
在不同平台上测试大型模型,需要特别关注的是,Mac Studio 的 LLM 处理效能,在众多台式机中表现最为出色,这一点 Max Weinbach 已经明确点出。
市面上多数个人电脑,Mac Studio或其他搭载整合内存的Mac,运行更高级的模型速度更快,并且能够处理更长的输入输出范围。这种情况,一方面源于苹果芯片的硬件长处,另一方面也离不开苹果的MLX架构。MLX能够使模型运行得更加高效,它不会提前把KV缓存全部加载进内存,就算上下文窗口变大,它也能维持较快的Token生成速度。
然而,他表明,这次评估并非公正的对照。英伟达的 Blackwell 架构在服务器和民用人工智能领域确实能力突出,但此次评估的核心是考察人工智能工作站上大语言模型的实际运作效率,所以评估数据更适合当作参考,不宜拿来直接对照。
这个实验对比了同一款模型、同一组初始参数,以及同一份输入指令,在三种不同设备上的运行效果,各项测试均以 128K 个符号作为上下文容量的限制(或者采用模型所能支持的最大容量)。其中,游戏主机上的测试基于 llama.cpp 软件,而苹果电脑上的测试则借助 MLX 工具完成。
RTX 5090 也能够支持更庞大的模型运行,它借助 CPU 分担、延迟载入等手段,在运算期间会灵活调用系统内存与 CPU 资源来处理更复杂的模型。但这种方法会提升反应时间,坦白讲,配备如此高性能的显卡,再去研究这些技巧反而失去了价值。
另有一些工具,比如 TensorRT-LLM,能够将模型转化为 Blackwell 所兼容的原生 fp4 数据格式,不过 Max Weinbach 表示,在为 RTX 5090 进行编译时,遭遇了许多问题,而且也没有充足的时间进行逐步排查。根据理论分析,若采用 Nvidia 提供的优化方案,RTX 5090 在 Windows 系统中的实际运行效果,理应远超当前测试所呈现的水平,然而性能瓶颈依然存在内存限制——RTX 5090 的内存容量仅 32GB,相比之下 M3 Ultra 的初始配置便达到 96GB,其最大支持容量更是高达 512GB。
这同样体现了 Apple Silicon 的显著长处:便捷。各项功能均已完善,用户无需额外设置即可直接使用。MLX 是当前最出色的平台,不仅苹果公司持续改进,开源社群同样积极参与,它能够充分运用 Apple Silicon 的整合式存储系统。RTX 5090 在 AI 运算的最大能力上确实要胜过 M3 Ultra 的显卡,不过 CUDA、TensorRT 这些软件框架在单台机器运行时反而成了瓶颈。但数据中心中使用 CUDA 和 TensorRT 还是具有不可替代的优势。
因此,Max Weinbach 指出,针对开发者的理想配置应当是这样安排:个人电脑方面配备 M3 Ultra Mac Studio,在服务器端则租用一台配置了八块 H100 显卡的服务器。Hopper 和 Blackwell 显卡更适用于服务器环境,而 M3 Ultra 则更适合个人电脑工作站使用。对于这些装置的比较颇为引人入胜,然而现实状况是,各种装置各有其独到之处,无法彼此直接替换,Max Weinbach 表示。
Mac Studio 在处理 DeepSeek R1 时的表现怎么样?
Dave Lee 这位 YouTube 主播,在 Max Weinbach 之外,依照文章开篇的介绍,借助一台配置了 512GB 内存的 Mac Studio,成功运行了 DeepSeek R1 这个规模庞大的模型。
Dave Lee 说明,DeepSeek R1 模型包含 6710 亿个参数,其体积达到 404GB,对内存带宽要求极高,通常只能借助 GPU 的专用显存来满足。不过,由于苹果采用了统一内存架构,M3 Ultra 将这部分需求纳入了系统内存范畴,即便在低功耗状态下也能取得良好表现。
测试期间,Dave Lee 将 M3 Ultra 处理 DeepSeek R1 的效果,同苹果以往的处理器进行了参照。诸如 R1 这类规模的模型,常规的个人电脑配置往往需要好几个 GPU 协同运作,并且配备极高容量的显存才能运行流畅,同时电力消耗也会急剧增加。但是 M3 Ultra 采用了整合内存设计,使人工智能程序得以类似访问显存般运用高传输率存储空间,仅单枚芯片即可实现高效作业。
值得留意的是,Dave Lee 特别指出,在处理小型模型时,M3 Ultra 仍有剩余性能,然而对于 6710 亿参数的 DeepSeek R1,则必须选用配置最高的 512GB 内存版本。macOS 系统原本对 VRAM 的使用设有固定上限,Dave Lee 为了让模型能够正常工作,特意进行了手动设置,将 VRAM 的最大容量调大,最终使得可用 VRAM 增加到了 448GB。
DeepSeek R1 在 M3 Ultra Mac Studio 上运行良好。尽管采用的是 4-bit 量化版本,导致精度有所损失,不过模型依旧拥有全部的 6710 亿参数,处理速度能达到每秒 16-18 个 tokens。综合表现令人满意。其他平台要获得同等表现,就必须配置多个 GPU,而 M3 Ultra 的长处体现在效能比,整个系统消耗功率不超过 200W。
Dave 补充说,采用常规的多个 GPU 安装方案来处理这个模型,其能量消耗至少是 M3 Ultra 的十倍。
Dave Lee 总体上指出,M3 Ultra 的 AI 处理性能大大超出预期。而 Max Weinbach 认为,现阶段市面不存在能够与 Mac Studio 相比肩的 AI 专业设备。
对此,你怎么看?
原文链接:
这款苹果工作站采用了最新的M3 Ultra芯片,集成了强大的人工智能功能,专为专业创作者设计,提供了卓越的性能表现,能够轻松应对复杂的创作任务,是专业人士的理想选择,适合进行高强度的图形处理和计算工作,为用户带来了前所未有的创作体验。
这款新型处理器能够顺利运行参数高达670亿的超深寻R1模型,展现出卓越的性能表现,在人工智能领域具有重大意义。