2025_NIPS_Agentic Plan Caching: Test-Time Memory for Fast and Cost-Efficient LLM Agents

在这里插入图片描述

文章总结与翻译

该研究针对基于大语言模型（LLM）的智能体（Agent）在复杂工作流中因大量规划和推理导致的高成本、高延迟问题，提出了一种名为Agentic Plan Caching（APC，智能体规划缓存）的测试时内存机制。

现有LLM缓存技术（如上下文缓存、语义缓存）主要为聊天机器人设计，聚焦查询级缓存，无法适配智能体应用的核心需求——智能体输出依赖外部数据和环境上下文，需在动态场景中做数据依赖决策，传统缓存难以分离查询核心意图与动态上下文。

模板提取与存储：智能体完成任务执行后，从执行日志中提取结构化规划模板，过滤冗余细节和上下文特定元素（如实体名称、数值），生成可复用模板并关联关键词存储。

关键词匹配查询：接收新请求时，通过轻量模型提取查询的高层意图关键词，基于关键词精确匹配缓存中的规划模板（避免语义匹配的阈值难题）。

模板适配与执行：缓存命中时，用轻量模型将模板适配为任务特定规划；缓存未命中时，用大型LLM生成新规划，任务完成后将新规划转化为模板存入缓存。