PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

PEAK:AIO 采用 CXL 内存突破 GPU HBM 内存限制，实现 AI 推理任务中 KVCache 重用、长上下文扩展及超低延迟访问，加速大规模模型推理。

PEAK:AIO 声称，它利用 CXL 内存解决 AI 推理模型中 GPU 内存的局限性，而不是将 KVCache 内容卸载到 NVMe 闪存驱动器。

这家总部位于英国的 AI 与 GPU 数据基础设施专业公司表示，AI 工作负载正从 “静态提示” 发展为 “动态上下文流、模型创建流水线以及长运行代理”，而工作负载不断增长，使得 GPU 的高带宽内存 (HBM) 的有限容量受到压力，令 AI 任务受内存瓶颈限制。

这导致任务的工作内存内容——即 KVCache——超出 HBM 容量，令 Token 被驱逐，并在需要时必须重新计算，从而延长任务运行时间。

包括 VAST Data 推出的 VUA、WEKA 推出的 Augmented Memory Grid，以及 Pliops 推出的 XDP LightningAI PCIe-add-in 卡前端连接 NVMe SSD 等多家供应商，均已尝试通过在外部闪存存储上划分一个类似于虚拟内存交换分区的 HBM 内存区域来扩充 HBM 容量。

PEAK:AIO 正在开发一款 1RU Token 内存产品，该产品将采用 CXL 内存、 PCIe gen 5、 NVMe 以及 GPU Direct 与 RDMA 配合。

PEAK:AIO 首席 AI 策略官兼联合创始人 Eyal Lemberger 在一份声明中表示： “无论您是部署跨会话思考的代理，还是扩展到百万 Token 上下文窗口 —— 在此情况下，每个模型的内存需求可能超过 500GB —— 这款设备都能通过将 Token 历史视为内存而非存储来实现扩展。现在是让内存像计算能力一样实现横向扩展的时候了。”

PEAK:AIO 表示，其设备支持： o 会话、模型与节点间的 KVCache 重用 o 扩展上下文窗口以实现更长的大语言模型历史记录 o 通过 CXL 分层实现 GPU 内存卸载 o 以及通过 NVMe-oF 上的 RDMA 实现超低延迟访问

它宣称，通过利用 CXL 内存级性能，其实现的 Token 内存可表现得如同 RAM 而非文件；而其他供应商（包括 Pliops、 VAST 和 WEKA）则无法做到这一点。PEAK:AIO 联合创始人及首席战略官 Mark Klarzynski 表示： “这正是现代 AI 所期待的 Token 内存体系。”

据悉，该技术使 AI 工作负载开发者能够构建一个系统，以内存级延迟缓存 Token 历史、注意力图以及流数据。PEAK:AIO 表示，其方案 “与 Nvidia 的 KVCache 重用及内存回收模型直接契合”，并且 “为基于 TensorRT-LLM 或 Triton 构建的团队提供插件支持，从而以最小的集成工作加速推理过程。”

理论上，PCIe gen 5 CXL 控制器的延迟约为 200 纳秒，而通过 GPU Direct 访问 NVMe SSD 的延迟约为 1.2 毫秒（即 1,200,000 纳秒），比 CXL 内存访问的延迟长约 6,000 倍。PEAK 的 Token 内存设备能够以 <5 微秒的延迟提供高达 150 GB/秒的持续吞吐量。

Lemberger 指出： “当其他厂商试图将文件系统扭曲得像内存时，我们构建了真正表现如内存的基础设施，因为这正是现代 AI 所需要的。在大规模应用中，问题不在于保存文件，而在于能够在微秒级别让每个 Token 均可访问。这实质上是一个内存问题，而我们正是通过拥抱最新硅层技术来解决它。”

PEAK:AIO 的 Token 内存设备为软件定义型，采用现成服务器，并预计将在第三季度投入生产。

来源：BLOCKS & FILES

0赞

好文章，需要你的鼓励

PEAK:AIO 利用 CXL 内存拯救受 HBM 限制的 AI 模型

来源：BLOCKS & FILES

2025

05/28

10:00

分享

点赞

你的下一位同事可能是具身机器人

GitHub CEO离任，微软直接接管代码托管平台

AI承诺的机遇掩盖了有序替代的现实

负责任的AI始于负责任的领导力

告别SaaS：智能体平台公司时代已来

英伟达发布Cosmos世界模型及机器人基础设施

戴尔和HPE基于英伟达Blackwell架构扩展AI基础设施产品线

Reddit封锁互联网档案馆阻止AI公司数据抓取

2025年软件供应链面临的最大挑战

Ocean推出Gmail生产力管理新应用

Pure Storage声称其闪存在功耗和碳排放方面超越固态硬盘

Nvidia在SIGGRAPH 2025发布下一代智能体AI和推理机器人模型

人工智能可能已经在缩减科技行业的入门级岗位，新研究显示

Salesforce斥资80亿美元收购Informatica对企业数据与 AI 的意义

OnePlus 全力投身 AI 革新

Mistral 推出 API 构建能够运行 Python、生成图像、执行 RAG 等任务的 AI 代理

利用数据科学实现医疗健康的超大规模扩展

Notepad、Paint 以及 Snipping Tool 搭载 AI：Microsoft 推出新功能，但并非所有用户均可使用

迈向人工智能赋能万维网的征程：NLWeb 及企业必须了解的事项

真正实现代理式 AI 扩展所需条件

从颠覆到再造：知识工作者如何在 AI 后时代蓬勃发展

报告：Nvidia 加快开发针对中国市场的新型低功耗 Blackwell GPU

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: