焱融科技首批通过ODCC KVCache测试认证

2026-04-19 1936阅读

2026 年 4 月 2 日，开放数据中心委员会(ODCC)2026 春季全会全体会议在浙江舟山顺利召开。大会期间，存储系统领域重磅成果发布，焱融 YRCache 推理存储系统凭借在 ODCC AI 存储实验室首批 KVCache 测试中的卓越表现，获得官方权威成果认证证书，充分彰显了其在推理存储领域的技术领先性。同时，YRCache 的测试成果为市场树立了标杆，为行业发展提供了参考与借鉴。在 AI 加速演进、Agent 应用爆发的当下，YRCache 已成为提升 Token 生产效率、降低推理成本的关键基础设施。

ODCC AI存储实验室联合主任范振国，AI存储实验室联合执行主任陈龙，为焱融科技及英韧科技颁发测试证书

AI 进入“Token 经济”，存储成为核心变量

以 OpenClaw 为代表的 AI Agent 应用正在经历爆发式增长。这类复杂 Agent 在多轮交互、长上下文处理、工具调用等场景中，呈现出典型的“吃 Token”特征——单次任务的 Token 消耗量远超传统对话模型，直接驱动了 Token 经济的指数级膨胀。

然而，这也让行业面临着前所未有的成本与效率压力：谁能以更低成本、更高效率生产 Token，谁就将掌握下一阶段 AI 竞争的主动权。而在 Token 生产链路中，KVCache 作为大模型推理的核心中间态数据，其存储与调度效率直接决定推理性能与 Token 成本。传统架构受限于 GPU 显存容量，极易导致显存溢出、响应迟缓及并发吞吐受限，硬件成本居高不下。

YRCache硬核实力

实现推理效率数量级跨越

围绕推理阶段的核心瓶颈，焱融 YRCache 构建了一套面向 Token 生产优化的推理存储架构，通过多项关键技术实现系统级突破：

Prefix Cache：复用高频 Prompt 的计算结果，避免重复计算，大幅降低首 Token 延迟

KVCache Offloading：将显存中昂贵的 KVCache 卸载至 CPU 内存、本地 NVMe SSD 或高性能分布式文件存储 YRCloudFile，突破单卡显存容量限制，支持更大 Batch Size 与更长上下文

先知注意力机制：通过计算用户查询与各数据块 Token 之间的注意力权重，精准识别关键 Token，仅对关键部分进行 KV 缓存重计算，突破传统前缀匹配限制，显著提升 KVCache 复用率并降低计算开销

通过这些能力，YRCache 实现了：

显著提升推理响应速度，优化用户交互体验

大幅提升系统 Token 吞吐能力，降低单位 Token 成本，放大硬件收益

全面提高整体 Token 产出效率

在本次 ODCC KVCache 场景测试中 YRCache 的价值也得到了充分验证。YRCache 不仅展现了其在各类算力环境中均能实现显著的性能提升(测试结果深度解读：ODCC联合NVIDIA、焱融等首发KVCache评测结果|焱融AI存储实现推理提速降本双突破)，更展现了其在“硬件平权”上的巨大潜力。

测试结果显示，YRCache可将中端 RTX 6000D GPU 的推理能力拉平至接近高端 H20 的水平(更多解析：中低端GPU也能跑出高端性能|焱融AI存储降低Token成本关键路径)。这意味着企业在算力硬件采购上拥有了更多选择，大幅缩减硬件采购与运维成本，提升 Token 投产比。无论是OpenClaw 智能体部署，还是大规模 Token 工厂运营，都能在更低成本下实现更高效率。

在本次 ODCC 春季全会存储焦点组研讨会上，中国信通院工程师段世茹就聚焦 AI 推理场景下的 KV Cache 存储方案的测试情况进行了介绍，并分享了焱融 YRCache 推理存储系统在本次测试中的具体表现。

决胜 Agentic AI 时代

在 OpenClaw Agent 爆发影响下，中国 Token 市场跨越式发展。根据国家数据局数据，2026 年 3 月中国日均 Token 调用量已突破 140 万亿，相较 2024 年初的 1000 亿，实现超千倍增长，中国已成为全球 AI 应用最活跃的市场之一。可以预见，未来 Token 调用规模仍将持续攀升。这一趋势背后，是算力成本的博弈，也是存储技术的较量。

作为中国 AI 存储领导者，焱融科技将持续围绕存储技术深度研发优化，助力企业构建更高性能、更低成本的 AI 基础设施，全面释放 Agentic AI 的产业价值。