环境、基准测试与数据生成

Hermes Agent 包含一个完整的环境框架，将其工具调用能力连接到 Atropos RL 训练框架。这支持三种工作流程：

RL 训练 —— 在具有 GRPO 的多回合代理任务上训练语言模型
基准测试 —— 在标准化的代理基准测试上评估模型
数据生成 —— 从代理运行中生成 SFT 训练数据

这三种方式共享相同的核心：一个环境类，它定义任务、运行代理循环并对输出进行评分。

仓库环境与 RL 训练工具

这里记录的 Python 环境框架位于仓库的 environments/ 目录下，是 Hermes/Atropos 集成的实现级 API。这与面向用户的 rl_* 工具是分开的，后者作为远程 RL 训练工作流程的编排界面。

快速链接

想运行基准测试？ 跳转到可用基准测试
想用 RL 训练？ 参见 RL 训练工具了解代理驱动的界面，或运行环境了解手动执行
想创建新环境？ 参见创建环境

架构

环境系统建立在三层继承链之上：

BaseEnv (Atropos)

来自 atroposlib 的基础。提供：

服务器管理 —— 连接到 OpenAI 兼容的 API（VLLM、SGLang、OpenRouter）
工作线程调度 —— 并行运行协调
Wandb 集成 —— 指标日志记录和运行可视化
CLI 界面 —— 三个子命令：serve、process、evaluate
评估日志记录 —— evaluate_log() 将结果保存到 JSON + JSONL

HermesAgentBaseEnv

Hermes-agent 层 (environments/hermes_base_env.py)。添加：

终端后端配置 —— 为沙盒执行设置 TERMINAL_ENV（本地、Docker、Modal、Daytona、SSH、Singularity）
工具解析 —— _resolve_tools_for_group() 调用 hermes-agent 的 get_tool_definitions() 以根据启用/禁用的工具集获取正确的工具模式
代理循环集成 —— collect_trajectory() 运行 HermesAgentLoop 并对结果评分
两阶段操作 —— 第 1 阶段（OpenAI 服务器）用于评估/SFT，第 2 阶段（VLLM ManagedServer）用于带 logprobs 的完整 RL
异步安全补丁 —— 猴子补丁 Modal 后端以在 Atropos 的事件循环中工作

具体环境

你的环境继承自 HermesAgentBaseEnv 并实现五个方法：

方法	用途
`setup()`	加载数据集，初始化状态
`get_next_item()`	返回下一次运行的下一个项目
`format_prompt(item)`	将项目转换为用户消息
`compute_reward(item, result, ctx)`	为运行评分 (0.0–1.0)
`evaluate()`	定期评估逻辑

核心组件

代理循环

HermesAgentLoop (environments/agent_loop.py) 是可重用的多回合代理引擎。它运行与 hermes-agent 主循环相同的工具调用模式：

通过 server.chat_completion() 将消息 + 工具模式发送到 API
如果响应包含 tool_calls，通过 handle_function_call() 调度每个
将工具结果附加到对话，返回步骤 1
如果没有 tool_calls，代理完成

工具调用在线程池 (ThreadPoolExecutor(128)) 中执行，以便异步后端（Modal、Docker）不会在 Atropos 的事件循环中死锁。

返回 AgentResult：

python

@dataclass
class AgentResult:
    messages: List[Dict[str, Any]]       # 完整对话历史
    turns_used: int                       # 进行的 LLM 调用次数
    finished_naturally: bool              # 如果模型自行停止则为 True
    reasoning_per_turn: List[Optional[str]]  # 提取的推理内容
    tool_errors: List[ToolError]          # 工具调度期间遇到的错误
    managed_state: Optional[Dict]         # VLLM ManagedServer 状态（第 2 阶段）

工具上下文

ToolContext (environments/tool_context.py) 让奖励函数直接访问模型在其运行期间使用的相同沙盒。task_id 作用域意味着所有状态（文件、进程、浏览器标签）都被保留。

python

async def compute_reward(self, item, result, ctx: ToolContext):
    # 在模型的终端沙盒中运行测试
    test = ctx.terminal("pytest -v")
    if test["exit_code"] == 0:
        return 1.0

    # 检查是否创建了文件
    content = ctx.read_file("/workspace/solution.py")
    if content.get("content"):
        return 0.5

    # 下载文件进行本地验证
    ctx.download_file("/remote/output.bin", "/local/output.bin")
    return 0.0

可用方法：

类别	方法
终端	`terminal(command, timeout)`
文件	`read_file(path)`、`write_file(path, content)`、`search(query, path)`
传输	`upload_file()`、`upload_dir()`、`download_file()`、`download_dir()`
Web	`web_search(query)`、`web_extract(urls)`
浏览器	`browser_navigate(url)`、`browser_snapshot()`
通用	`call_tool(name, args)` —— 任何 hermes-agent 工具的逃生舱口
清理	`cleanup()` —— 释放所有资源

工具调用解析器

对于第 2 阶段（VLLM ManagedServer），服务器返回原始文本而没有结构化的工具调用。environments/tool_call_parsers/ 中的客户端解析器从原始输出中提取 tool_calls：

python

from environments.tool_call_parsers import get_parser

parser = get_parser("hermes")  # 或 "mistral"、"llama3_json"、"qwen"、"deepseek_v3" 等
content, tool_calls = parser.parse(raw_model_output)

可用解析器：hermes、mistral、llama3_json、qwen、qwen3_coder、deepseek_v3、deepseek_v3_1、kimi_k2、longcat、glm45、glm47。

在第 1 阶段（OpenAI 服务器类型），不需要解析器 —— 服务器原生处理工具调用解析。

可用基准测试

TerminalBench2

89 个具有挑战性的终端任务，具有每个任务的 Docker 沙盒环境。


测试内容	单任务编码/系统管理能力
评分	二元通过/失败（测试套件验证）
沙盒	Modal 云沙盒（每个任务的 Docker 镜像）
工具	`terminal` + `file`
任务	跨多个类别的 89 个任务
成本	完整评估约 $50–200（并行执行）
时间	约 2–4 小时

bash

python environments/benchmarks/terminalbench_2/terminalbench2_env.py evaluate \
    --config environments/benchmarks/terminalbench_2/default.yaml

# 运行特定任务
python environments/benchmarks/terminalbench_2/terminalbench2_env.py evaluate \
    --config environments/benchmarks/terminalbench_2/default.yaml \
    --env.task_filter fix-git,git-multibranch

数据集：NousResearch/terminal-bench-2 在 HuggingFace 上。

TBLite (OpenThoughts Terminal Bench Lite)

100 个难度校准任务 —— TerminalBench2 的快速代理。


测试内容	与 TB2 相同（编码/系统管理），校准难度层级
评分	二元通过/失败
沙盒	Modal 云沙盒
工具	`terminal` + `file`
任务	100 个任务：简单 (40)、中等 (26)、困难 (26)、极端 (8)
相关性	与完整 TB2 的 r=0.911
速度	比 TB2 快 2.6–8 倍

bash

python environments/benchmarks/tblite/tblite_env.py evaluate \
    --config environments/benchmarks/tblite/default.yaml

TBLite 是 TerminalBench2 的薄子类 —— 只有数据集和超时不同。由 OpenThoughts Agent 团队（Snorkel AI + Bespoke Labs）创建。数据集：NousResearch/openthoughts-tblite。

YC-Bench

长周期战略基准测试 —— 代理扮演 AI 初创公司的 CEO。


测试内容	数百回合的多回合战略连贯性
评分	复合：`0.5 × survival + 0.5 × normalised_funds`
沙盒	本地终端（不需要 Modal）
工具	仅 `terminal`
运行	9 个默认（3 个预设 × 3 个种子），顺序
成本	完整评估约 $50–200
时间	约 3–6 小时

bash

# 安装 yc-bench（可选依赖）
pip install "hermes-agent[yc-bench]"

# 运行评估
bash environments/benchmarks/yc_bench/run_eval.sh

# 或直接
python environments/benchmarks/yc_bench/yc_bench_env.py evaluate \
    --config environments/benchmarks/yc_bench/default.yaml

# 快速单预设测试
python environments/benchmarks/yc_bench/yc_bench_env.py evaluate \
    --config environments/benchmarks/yc_bench/default.yaml \
    --env.presets '["fast_test"]' --env.seeds '[1]'

YC-Bench 使用 collinear-ai/yc-bench —— 一个确定性模拟，具有 4 个技能领域（研究、推理、数据环境、训练）、声望系统、员工管理和财务压力。与 TB2 的每个任务二元评分不同，YC-Bench 测量代理在数百个复合决策中保持连贯策略的能力。

训练环境

TerminalTestEnv

一个具有内联任务的最小自包含环境（没有外部数据集）。用于验证完整堆栈端到端。每个任务要求模型在已知路径创建文件；验证器检查内容。

bash

# 处理模式（将运行保存到 JSONL，不需要训练服务器）
python environments/terminal_test_env/terminal_test_env.py process \
    --env.data_path_to_save_groups terminal_test_output.jsonl

# 服务模式（连接到 Atropos API 进行 RL 训练）
python environments/terminal_test_env/terminal_test_env.py serve

HermesSweEnv

SWE-bench 风格的训练环境。模型获得编码任务，使用终端 + 文件 + Web 工具解决它，奖励函数在相同的 Modal 沙盒中运行测试。

bash

python environments/hermes_swe_env/hermes_swe_env.py serve \
    --openai.model_name YourModel \
    --env.dataset_name bigcode/humanevalpack \
    --env.terminal_backend modal

运行环境

每个环境都是一个独立的 Python 脚本，具有三个 CLI 子命令：

`evaluate` —— 运行基准测试

用于仅评估环境（基准测试）。运行所有项目，计算指标，记录到 wandb。

bash

python environments/benchmarks/tblite/tblite_env.py evaluate \
    --config environments/benchmarks/tblite/default.yaml \
    --openai.model_name anthropic/claude-sonnet-4.6

不需要训练服务器或 run-api。环境处理所有事情。

`process` —— 生成 SFT 数据

运行运行并将评分的轨迹保存到 JSONL。适用于生成训练数据而无需完整的 RL 循环。

bash

python environments/terminal_test_env/terminal_test_env.py process \
    --env.data_path_to_save_groups output.jsonl \
    --openai.model_name anthropic/claude-sonnet-4.6

输出格式：每行是一个评分的轨迹，具有完整对话历史、奖励和元数据。

`serve` —— 连接到 Atropos 进行 RL 训练

将环境连接到正在运行的 Atropos API 服务器 (run-api)。用于实时 RL 训练期间。

bash

# 终端 1：启动 Atropos API
run-api

# 终端 2：启动环境
python environments/hermes_swe_env/hermes_swe_env.py serve \
    --openai.model_name YourModel

环境从 Atropos 接收项目，运行代理运行，计算奖励，并将评分的轨迹发送回训练。

两阶段操作

第 1 阶段：OpenAI 服务器（评估 / SFT）

使用带有 tools= 参数的 server.chat_completion()。服务器（VLLM、SGLang、OpenRouter、OpenAI）原生处理工具调用解析。返回带有结构化 tool_calls 的 ChatCompletion 对象。

用于：评估、SFT 数据生成、基准测试、测试
占位符令牌 为 Atropos 管道创建（因为 OpenAI API 不提供真实的令牌 ID）

第 2 阶段：VLLM ManagedServer（完整 RL）

使用 ManagedServer 通过 /generate 获取确切的令牌 ID + logprobs。客户端工具调用解析器从原始输出重建结构化 tool_calls。

用于：使用 GRPO/PPO 的完整 RL 训练
真实令牌、掩码和 logprobs 流经管道
在配置中设置 tool_call_parser 以匹配模型的格式（例如，"hermes"、"qwen"、"mistral"）

创建环境

训练环境

python

from environments.hermes_base_env import HermesAgentBaseEnv, HermesAgentEnvConfig
from atroposlib.envs.server_handling.server_manager import APIServerConfig

class MyEnvConfig(HermesAgentEnvConfig):
    my_custom_field: str = "default_value"

class MyEnv(HermesAgentBaseEnv):
    name = "my-env"
    env_config_cls = MyEnvConfig

    @classmethod
    def config_init(cls):
        env_config = MyEnvConfig(
            enabled_toolsets=["terminal", "file"],
            terminal_backend="modal",
            max_agent_turns=30,
        )
        server_configs = [APIServerConfig(
            base_url="https://openrouter.ai/api/v1",
            model_name="anthropic/claude-sonnet-4.6",
            server_type="openai",
        )]
        return env_config, server_configs

    async def setup(self):
        from datasets import load_dataset
        self.dataset = list(load_dataset("my-dataset", split="train"))
        self.iter = 0

    async def get_next_item(self):
        item = self.dataset[self.iter % len(self.dataset)]
        self.iter += 1
        return item

    def format_prompt(self, item):
        return item["instruction"]

    async def compute_reward(self, item, result, ctx):
        # ctx 提供对运行沙盒的完整工具访问
        test = ctx.terminal("pytest -v")
        return 1.0 if test["exit_code"] == 0 else 0.0

    async def evaluate(self, *args, **kwargs):
        # 训练期间的定期评估
        pass

if __name__ == "__main__":
    MyEnv.cli()

仅评估基准测试

对于基准测试，遵循 TerminalBench2、TBLite 和 YC-Bench 使用的模式：

创建在 environments/benchmarks/your-benchmark/
设置仅评估配置：eval_handling=STOP_TRAIN、steps_per_eval=1、total_steps=1
存根训练方法：collect_trajectories() 返回 (None, [])，score() 返回 None
实现 rollout_and_score_eval(eval_item) —— 每个项目的代理循环 + 评分
实现 evaluate() —— 编排所有运行，计算聚合指标
添加流式 JSONL 用于崩溃安全结果持久化
添加清理：KeyboardInterrupt 处理、cleanup_all_environments()、_tool_executor.shutdown()
使用 evaluate 子命令运行

参见 environments/benchmarks/yc_bench/yc_bench_env.py 获取干净、文档完善的参考实现。

配置参考

HermesAgentEnvConfig 字段

字段	类型	默认值	描述
`enabled_toolsets`	`List[str]`	`None` (全部)	启用哪些 hermes 工具集
`disabled_toolsets`	`List[str]`	`None`	要过滤掉的工具集
`distribution`	`str`	`None`	概率工具集分布名称
`max_agent_turns`	`int`	`30`	每次运行的最大 LLM 调用次数
`agent_temperature`	`float`	`1.0`	采样温度
`system_prompt`	`str`	`None`	代理的系统消息
`terminal_backend`	`str`	`"local"`	`local`、`docker`、`modal`、`daytona`、`ssh`、`singularity`
`terminal_timeout`	`int`	`120`	每个终端命令的秒数
`terminal_lifetime`	`int`	`3600`	最大沙盒生命周期
`dataset_name`	`str`	`None`	HuggingFace 数据集标识符
`tool_pool_size`	`int`	`128`	工具执行的线程池大小
`tool_call_parser`	`str`	`"hermes"`	第 2 阶段原始输出的解析器
`extra_body`	`Dict`	`None`	OpenAI API 的额外参数（例如 OpenRouter 提供商首选项）
`eval_handling`	`Enum`	`STOP_TRAIN`	`STOP_TRAIN`、`LIMIT_TRAIN`、`NONE`

YAML 配置

环境可以通过 --config 传递的 YAML 文件进行配置：

yaml

env:
  enabled_toolsets: ["terminal", "file"]
  max_agent_turns: 60
  max_token_length: 32000
  agent_temperature: 0.8
  terminal_backend: "modal"
  terminal_timeout: 300
  dataset_name: "NousResearch/terminal-bench-2"
  tokenizer_name: "NousResearch/Hermes-3-Llama-3.1-8B"
  use_wandb: true
  wandb_name: "my-benchmark"

openai:
  base_url: "https://openrouter.ai/api/v1"
  model_name: "anthropic/claude-sonnet-4.6"
  server_type: "openai"
  health_check: false

YAML 值覆盖 config_init() 默认值。CLI 参数覆盖 YAML 值：

bash

python my_env.py evaluate \
    --config my_config.yaml \
    --openai.model_name anthropic/claude-opus-4.6  # 覆盖 YAML

先决条件

对于所有环境

Python >= 3.11
atroposlib: pip install git+https://github.com/NousResearch/atropos.git
LLM API 密钥（OpenRouter、OpenAI 或自托管 VLLM/SGLang）

Modal 账户和 CLI：pip install "hermes-agent[modal]"
MODAL_TOKEN_ID 和 MODAL_TOKEN_SECRET 环境变量

对于 YC-Bench

pip install "hermes-agent[yc-bench]"（安装 yc-bench CLI + SQLAlchemy）
不需要 Modal —— 使用本地终端后端运行

对于 RL 训练

TINKER_API_KEY —— Tinker 训练服务的 API 密钥
WANDB_API_KEY —— 用于 Weights & Biases 指标跟踪
tinker-atropos 子模块（在仓库的 tinker-atropos/）

参见 RL 训练了解代理驱动的 RL 工作流程。

目录结构

environments/
├── hermes_base_env.py          # 抽象基类 (HermesAgentBaseEnv)
├── agent_loop.py               # 多回合代理引擎 (HermesAgentLoop)
├── tool_context.py             # 奖励函数的每个运行工具访问
├── patches.py                  # Modal 后端的异步安全补丁
│
├── tool_call_parsers/          # 第 2 阶段客户端解析器
│   ├── hermes_parser.py        # Hermes/ChatML <tool_call> 格式
│   ├── mistral_parser.py       # Mistral [TOOL_CALLS] 格式
│   ├── llama_parser.py         # Llama 3 JSON 工具调用
│   ├── qwen_parser.py          # Qwen 格式
│   ├── deepseek_v3_parser.py   # DeepSeek V3 格式
│   └── ...                     # + kimi_k2、longcat、glm45/47 等
│
├── terminal_test_env/          # 堆栈验证（内联任务）
├── hermes_swe_env/             # SWE-bench 训练环境
│
└── benchmarks/                 # 评估基准测试
    ├── terminalbench_2/        # 89 个终端任务，Modal 沙盒
    ├── tblite/                 # 100 个校准任务（快速 TB2 代理）
    └── yc_bench/               # 长周期战略基准测试

环境、基准测试与数据生成 ​

架构 ​

BaseEnv (Atropos) ​

HermesAgentBaseEnv ​

具体环境 ​

核心组件 ​

代理循环 ​

工具上下文 ​

工具调用解析器 ​

可用基准测试 ​

TerminalBench2 ​

TBLite (OpenThoughts Terminal Bench Lite) ​

YC-Bench ​

训练环境 ​

TerminalTestEnv ​

HermesSweEnv ​

运行环境 ​

evaluate —— 运行基准测试 ​

process —— 生成 SFT 数据 ​

serve —— 连接到 Atropos 进行 RL 训练 ​

两阶段操作 ​

第 1 阶段：OpenAI 服务器（评估 / SFT） ​

第 2 阶段：VLLM ManagedServer（完整 RL） ​

创建环境 ​

训练环境 ​

仅评估基准测试 ​

配置参考 ​

HermesAgentEnvConfig 字段 ​

YAML 配置 ​

先决条件 ​

对于所有环境 ​

对于 Modal 沙盒基准测试（TB2、TBLite） ​

对于 YC-Bench ​

对于 RL 训练 ​

目录结构 ​

环境、基准测试与数据生成

架构

BaseEnv (Atropos)

HermesAgentBaseEnv

具体环境

核心组件

代理循环

工具上下文

工具调用解析器

可用基准测试

TerminalBench2

TBLite (OpenThoughts Terminal Bench Lite)

YC-Bench

训练环境

TerminalTestEnv

HermesSweEnv

运行环境

`evaluate` —— 运行基准测试

`process` —— 生成 SFT 数据

`serve` —— 连接到 Atropos 进行 RL 训练

两阶段操作

第 1 阶段：OpenAI 服务器（评估 / SFT）

第 2 阶段：VLLM ManagedServer（完整 RL）

创建环境

训练环境

仅评估基准测试

配置参考

HermesAgentEnvConfig 字段

YAML 配置

先决条件

对于所有环境

对于 Modal 沙盒基准测试（TB2、TBLite）

对于 YC-Bench

对于 RL 训练

目录结构