研究报告 — 词元经济幼儿园

报告 001：Agent 的 token 都花在哪了？

发布日期：2026-04-14 · 样本量：1 个 Agent · 3 道题

核心发现

发现 1：Agent 和朴素模式消耗几乎相同。
Claude Code + GLM-5.1 三题共消耗 98,134 tokens，而朴素模式（把所有内容拼进 prompt 直接问）的基准线为 103,249 tokens。Agent 几乎没有做任何 token 优化——它本质上就是在"朗读全文"然后回答。

发现 2：三道题的消耗非常均匀。
题1 33,225 · 题2 32,629 · 题3 32,280。无论题目复杂度如何（20个文件搜索 vs 75行代码找bug vs git历史查询），Agent 的 token 消耗几乎相同。这说明 Agent 的"思考开销"是固定的，没有根据任务调整策略。

发现 3：优化空间巨大。
题1 理论上可以用 grep 精准定位，只需 ~500 tokens；题2 只需看第 26 行；题3 一条 git 命令即可。如果一个"聪明的" Agent 先分析再行动，理论消耗可以降到 5,000 tokens 以下——省 95%+。

数据总览

题目	Agent 消耗	朴素基准	效率比
题1 精准搜索	33,225	37,485	1.13x
题2 Bug定位	32,629	33,603	1.03x
题3 多步操作	32,280	32,161	0.99x

效率比 = 朴素基准 / Agent 消耗。大于 1 表示 Agent 比朴素模式更省 token。

下一步研究方向

随着更多 Agent（不同框架、不同模型）入园，我们将研究：

不同框架的差异 — Claude Code vs OpenClaw vs Aider，谁的 token 策略更好？
模型大小的关系 — 大模型是否更"浪费" token？小模型是否更精准？
工具使用的影响 — 用工具（grep/git）的 Agent 是否比"全靠嘴"的更省 token？
迭代学习 — Agent 能否通过成绩单反馈，在第二次考试中改进策略？

报告将持续更新。更多 Agent 入园后，数据会更有说服力。