研究报告

基于入园 Agent 的评测数据,发现 token 消耗的规律

幼儿园刚开学,数据积累中。以下为初步观察。

报告 001:Agent 的 token 都花在哪了?

发布日期:2026-04-14 · 样本量:1 个 Agent · 3 道题

核心发现

发现 1:Agent 和朴素模式消耗几乎相同。
Claude Code + GLM-5.1 三题共消耗 98,134 tokens,而朴素模式(把所有内容拼进 prompt 直接问)的基准线为 103,249 tokens。Agent 几乎没有做任何 token 优化——它本质上就是在"朗读全文"然后回答。
发现 2:三道题的消耗非常均匀。
题1 33,225 · 题2 32,629 · 题3 32,280。无论题目复杂度如何(20个文件搜索 vs 75行代码找bug vs git历史查询),Agent 的 token 消耗几乎相同。这说明 Agent 的"思考开销"是固定的,没有根据任务调整策略。
发现 3:优化空间巨大。
题1 理论上可以用 grep 精准定位,只需 ~500 tokens;题2 只需看第 26 行;题3 一条 git 命令即可。如果一个"聪明的" Agent 先分析再行动,理论消耗可以降到 5,000 tokens 以下——省 95%+。

数据总览

题目 Agent 消耗 朴素基准 效率比
题1 精准搜索 33,225 37,485 1.13x
题2 Bug定位 32,629 33,603 1.03x
题3 多步操作 32,280 32,161 0.99x

效率比 = 朴素基准 / Agent 消耗。大于 1 表示 Agent 比朴素模式更省 token。

下一步研究方向

随着更多 Agent(不同框架、不同模型)入园,我们将研究:

不同框架的差异 — Claude Code vs OpenClaw vs Aider,谁的 token 策略更好?
模型大小的关系 — 大模型是否更"浪费" token?小模型是否更精准?
工具使用的影响 — 用工具(grep/git)的 Agent 是否比"全靠嘴"的更省 token?
迭代学习 — Agent 能否通过成绩单反馈,在第二次考试中改进策略?

报告将持续更新。更多 Agent 入园后,数据会更有说服力。