焱融科技首批通过ODCC KVCache测试认证
2026 年 4 月 2 日,开放数据中心委员会(ODCC)2026 春季全会全体会议在浙江舟山顺利召开。大会期间,存储系统领域重磅成果发布,焱融 YRCache 推理存储系统凭借在 ODCC AI 存储实验室首批 KVCache 测试中的卓越表现,获得官方权威成果认证证书,充分彰显了其在推理存储领域的技术领先性。同时,YRCache 的测试成果为市场树立了标杆,为行业发展提供了参考与借鉴。在 AI 加速演进、Agent 应用爆发的当下,YRCache 已成为提升 Token 生产效率、降低推理成本的关键基础设施。
ODCC AI存储实验室联合主任范振国,AI存储实验室联合执行主任陈龙,为焱融科技及英韧科技颁发测试证书
AI 进入“Token 经济”,存储成为核心变量
以 OpenClaw 为代表的 AI Agent 应用正在经历爆发式增长。这类复杂 Agent 在多轮交互、长上下文处理、工具调用等场景中,呈现出典型的“吃 Token”特征——单次任务的 Token 消耗量远超传统对话模型,直接驱动了 Token 经济的指数级膨胀。
然而,这也让行业面临着前所未有的成本与效率压力:谁能以更低成本、更高效率生产 Token,谁就将掌握下一阶段 AI 竞争的主动权。而在 Token 生产链路中,KVCache 作为大模型推理的核心中间态数据,其存储与调度效率直接决定推理性能与 Token 成本。传统架构受限于 GPU 显存容量,极易导致显存溢出、响应迟缓及并发吞吐受限,硬件成本居高不下。
YRCache硬核实力
实现推理效率数量级跨越
围绕推理阶段的核心瓶颈,焱融 YRCache 构建了一套面向 Token 生产优化的推理存储架构,通过多项关键技术实现系统级突破:
Prefix Cache:复用高频 Prompt 的计算结果,避免重复计算,大幅降低首 Token 延迟
KVCache Offloading:将显存中昂贵的 KVCache 卸载至 CPU 内存、本地 NVMe SSD 或高性能分布式文件存储 YRCloudFile,突破单卡显存容量限制,支持更大 Batch Size 与更长上下文
先知注意力机制:通过计算用户查询与各数据块 Token 之间的注意力权重,精准识别关键 Token,仅对关键部分进行 KV 缓存重计算,突破传统前缀匹配限制,显著提升 KVCache 复用率并降低计算开销
通过这些能力,YRCache 实现了:
显著提升推理响应速度,优化用户交互体验
大幅提升系统 Token 吞吐能力,降低单位 Token 成本,放大硬件收益
全面提高整体 Token 产出效率
在本次 ODCC KVCache 场景测试中 YRCache 的价值也得到了充分验证。YRCache 不仅展现了其在各类算力环境中均能实现显著的性能提升(测试结果深度解读:ODCC联合NVIDIA、焱融等首发KVCache评测结果|焱融AI存储实现推理提速降本双突破),更展现了其在“硬件平权”上的巨大潜力。
测试结果显示,YRCache可将中端 RTX 6000D GPU 的推理能力拉平至接近高端 H20 的水平(更多解析:中低端GPU也能跑出高端性能|焱融AI存储降低Token成本关键路径)。这意味着企业在算力硬件采购上拥有了更多选择,大幅缩减硬件采购与运维成本,提升 Token 投产比。无论是OpenClaw 智能体部署,还是大规模 Token 工厂运营,都能在更低成本下实现更高效率。
在本次 ODCC 春季全会存储焦点组研讨会上,中国信通院工程师段世茹就聚焦 AI 推理场景下的 KV Cache 存储方案的测试情况进行了介绍,并分享了焱融 YRCache 推理存储系统在本次测试中的具体表现。
决胜 Agentic AI 时代
在 OpenClaw Agent 爆发影响下,中国 Token 市场跨越式发展。根据国家数据局数据,2026 年 3 月中国日均 Token 调用量已突破 140 万亿,相较 2024 年初的 1000 亿,实现超千倍增长,中国已成为全球 AI 应用最活跃的市场之一。可以预见,未来 Token 调用规模仍将持续攀升。这一趋势背后,是算力成本的博弈,也是存储技术的较量。
作为中国 AI 存储领导者,焱融科技将持续围绕存储技术深度研发优化,助力企业构建更高性能、更低成本的 AI 基础设施,全面释放 Agentic AI 的产业价值。


