构建上下文引擎插件
上下文引擎插件用替代策略替换内置的 ContextCompressor 来管理对话上下文。例如,构建知识 DAG 而不是有损摘要的无损上下文管理 (LCM) 引擎。
工作原理
代理的上下文管理建立在 ContextEngine ABC (agent/context_engine.py) 上。内置的 ContextCompressor 是默认实现。插件引擎必须实现相同的接口。
一次只能有一个上下文引擎处于活动状态。选择是配置驱动的:
# config.yaml
context:
engine: "compressor" # 默认内置
engine: "lcm" # 激活名为 "lcm" 的插件引擎插件引擎从不自动激活 —— 用户必须显式将 context.engine 设置为插件名称。
目录结构
每个上下文引擎位于 plugins/context_engine/<name>/:
plugins/context_engine/lcm/
├── __init__.py # 导出 ContextEngine 子类
├── plugin.yaml # 元数据(名称、描述、版本)
└── ... # 引擎需要的任何其他模块ContextEngine ABC
你的引擎必须实现这些必需方法:
from agent.context_engine import ContextEngine
class LCMEngine(ContextEngine):
@property
def name(self) -> str:
"""短标识符,例如 'lcm'。必须匹配 config.yaml 值。"""
return "lcm"
def update_from_response(self, usage: dict) -> None:
"""每次 LLM 调用后使用 usage 字典调用。
从响应更新 self.last_prompt_tokens、self.last_completion_tokens、
self.last_total_tokens。
"""
def should_compress(self, prompt_tokens: int = None) -> bool:
"""如果本回合应触发压缩则返回 True。"""
def compress(self, messages: list, current_tokens: int = None) -> list:
"""压缩消息列表并返回新的(可能更短的)列表。
返回的列表必须是有效的 OpenAI 格式消息序列。
"""引擎必须维护的类属性
代理直接读取这些以进行显示和日志记录:
last_prompt_tokens: int = 0
last_completion_tokens: int = 0
last_total_tokens: int = 0
threshold_tokens: int = 0 # 何时触发压缩
context_length: int = 0 # 模型的完整上下文窗口
compression_count: int = 0 # compress() 已运行次数可选方法
这些在 ABC 中有合理的默认值。根据需要覆盖:
| 方法 | 默认值 | 何时覆盖 |
|---|---|---|
on_session_start(session_id, **kwargs) | 无操作 | 你需要加载持久化状态(DAG、DB) |
on_session_end(session_id, messages) | 无操作 | 你需要刷新状态、关闭连接 |
on_session_reset() | 重置令牌计数器 | 你有每会话状态要清除 |
update_model(model, context_length, ...) | 更新 context_length + threshold | 切换模型时需要重新计算预算 |
get_tool_schemas() | 返回 [] | 你的引擎提供代理可调用的工具(例如 lcm_grep) |
handle_tool_call(name, args, **kwargs) | 返回错误 JSON | 你实现工具处理程序 |
should_compress_preflight(messages) | 返回 False | 你可以做廉价的 API 调用前估计 |
get_status() | 标准令牌/threshold 字典 | 你有自定义指标要暴露 |
引擎工具
上下文引擎可以公开代理直接调用的工具。从 get_tool_schemas() 返回模式并在 handle_tool_call() 中处理调用:
def get_tool_schemas(self):
return [{
"name": "lcm_grep",
"description": "搜索上下文知识图",
"parameters": {
"type": "object",
"properties": {
"query": {"type": "string", "description": "搜索查询"}
},
"required": ["query"],
},
}]
def handle_tool_call(self, name, args, **kwargs):
if name == "lcm_grep":
results = self._search_dag(args["query"])
return json.dumps({"results": results})
return json.dumps({"error": f"未知工具: {name}"})引擎工具在启动时注入代理的工具列表并自动调度 —— 无需注册表注册。
注册
通过目录(推荐)
将你的引擎放在 plugins/context_engine/<name>/。__init__.py 必须导出一个 ContextEngine 子类。发现系统自动找到并实例化它。
通过通用插件系统
通用插件也可以注册上下文引擎:
def register(ctx):
engine = LCMEngine(context_length=200000)
ctx.register_context_engine(engine)只能注册一个引擎。第二个尝试注册的插件会被拒绝并发出警告。
生命周期
1. 引擎实例化(插件加载或目录发现)
2. on_session_start() —— 对话开始
3. update_from_response() —— 每次 API 调用后
4. should_compress() —— 每回合检查
5. compress() —— 当 should_compress() 返回 True 时调用
6. on_session_end() —— 会话边界(CLI 退出、/reset、网关过期)on_session_reset() 在 /new 或 /reset 时调用,以清除每会话状态而不完全关闭。
配置
用户通过 hermes plugins → Provider Plugins → Context Engine 选择你的引擎,或通过编辑 config.yaml:
context:
engine: "lcm" # 必须匹配引擎的 name 属性compression 配置块(compression.threshold、compression.protect_last_n 等)特定于内置的 ContextCompressor。你的引擎应该在初始化时从 config.yaml 读取定义自己的配置格式(如果需要)。
测试
from agent.context_engine import ContextEngine
def test_engine_satisfies_abc():
engine = YourEngine(context_length=200000)
assert isinstance(engine, ContextEngine)
assert engine.name == "your-name"
def test_compress_returns_valid_messages():
engine = YourEngine(context_length=200000)
msgs = [{"role": "user", "content": "hello"}]
result = engine.compress(msgs)
assert isinstance(result, list)
assert all("role" in m for m in result)参见 tests/agent/test_context_engine.py 获取完整的 ABC 契约测试套件。